预训练大语言模型的配方

  • 模型架构:介绍了大型语言模型基于Transformer架构的衍生版本,包括仅解码器的Transformer架构,以及如何通过参数和输入数据的交互来定义模型的具体实现
  • 训练数据集:强调了训练数据集的重要性,包括自然语言文本、编程语言代码和其他结构化信息,以及数据集的规模通常以词元数量来衡量,数据集范围从几千亿词元到几万亿词元不等
  • 分词器:解释了分词器的作用,即如何将文本转换为数字输入,以及分词器词汇量大小对文本分割成不同词元种类数目的影响,通常介于 32,000 到 200,000 之间
  • 训练超参数:讨论了训练超参数的定义,包括如何调整模型以适应新数据样本,以及模型参数更新的速度,这些参数决定了模型训练的方法
  • 模型权重:说明了训练过程的成果是一系列模型权重,这些权重可以用于后续的推理过程,如生成文本

2022 年,从规模竞赛转向数据竞赛

  • 模型规模与性能:回顾了2022年初机器学习界对模型规模与性能关系的看法,以及突现能力和规模定律的概念
  • 开源模型家族:介绍了 BLOOM、OPT、GLM-130B 等模型,它们的特点和训练数据集,包括 BLOOM 的多语言数据训练和OPT的改进注意力机制
  • 数据量与模型参数的平衡:引用了 DeepMind 的研究,指出在有限的计算预算下,更高效的策略是维持较小的模型并在更广泛的数据集上进行训练,如 Chinchilla 模型的70B 参数和 140B 词元的数据集训练

2023年,开源发布之年

  • 小型大语言模型的崛起:描述了2023年小型大语言模型的爆发式增长,包括 Meta 的 LLaMA 系列、Eleuther AI的 Pythia 系列等,以及这些模型如何通过调整和优化来提高性能
  • 对话模型:讨论了新发布的预训练模型几乎都配备了预训练版本和对话微调版本,以及这些模型如何适应聊天环境,如 LLaMA 系列的对话版本和 Pythia 模型的指令微调版本
  • 社区进展:概述了社区成员和研究人员如何积极地构建新数据集并对模型进行微调,以展现新模型的性能,如 OpenBMB 发布的 UltraLM 和 UltraFeedback 数据集

开启定制模型的大门

  • 模型融合:介绍了模型融合的概念,即如何将不同模型的权重融合到一个单一模型中,以结合每个模型的优势,例如平均模型参数或加权平均
  • 参数高效微调:提出了参数高效微调 (PEFT) 的方法,允许用户在有限的硬件资源下进行模型调整,通过冻结预训练模型中的参数并在其基础上附加新的适配器层
  • 量化:解释了量化技术如何通过改变模型参数的精度来减少模型的大小,使其更易于部署和使用,如使用 8bit 或 4bit 编码来降低内存需求

接下来呢?

  • 新架构的出现提到了混合专家模型 (如Mixtral) 和状态空间模型 (如Mamba和Striped Hyena) 等新架构,以及它们对未来模型发展的潜在影响
  • 未来展望对未来模型发展和开源社区的持续进步表示期待,同时也对新架构是否能取代 Transformer 架构保持关注,如 Meta 发布的 LLaMA-2 系列和阿里巴巴的 Qwen 系列模型