Llama 2: 令人难以置信的开源大语言模型
Llama 2是LLaMA的延续。在数据质量、培训技术(包括新颖的研究工件)、能力评估、安全培训和负责任的发布方面进行了实质性的技术扩展。技术研究论文包括所有这些领域的实质性细节。从大局来看,这是LLM生态系统迈出的一大步,当研究共享处于历史最低水平,监管捕获处于人工智能的历史最高水平时。
基本模型似乎非常强大(超越 GPT3),微调的聊天模型似乎与 ChatGPT 处于同一水平。对于开源来说,这是一个巨大的飞跃,对闭源提供商来说是一个巨大的打击,因为使用这种模式将为大多数公司提供更多的可定制性和更低的成本。
总之,以下是您需要了解的内容。我的列表侧重于模型本身,并且在整个博客中都包含对这意味着什么的分析。
- 模型是什么:Meta 正在发布多个模型(来自 7、13、34、70 亿的骆驼基数和相同大小的骆驼聊天变体。Meta “将预训练语料库的大小增加了 40%,将模型的上下文长度增加了一倍 [到 4k],并采用了分组查询注意力(Ainslie 等人,2023 年)。
- 它是开源的吗? 从技术上讲,该模型不是开源的,因为它的开发和使用并不完全可供全体公众使用。它对开源社区仍然有用,但它只是一个开放发布/开放创新[更多 这里].
- 功能:广泛的基准测试,我第一次确信开放模型是在 ChatGPT 级别(编码除外)。.
- 成本:广泛的预算和承诺(例如,如果按市场价格计算,偏好数据估计约为25万美元),非常大的团队。制作通用模型的赌注如此之大。
- 其他人工制品:没有奖励模型或数据集发布的迹象,用于从人类反馈(RLHF)中进行公共强化学习。
- 元组织元组织:元AI组织变化的迹象——这个组织似乎与Yann Lecun和原始FAIR中的每个人不同。
- 代码/数学/推理:论文和RLHF过程中对代码数据的讨论不多。例如,StarCoder 在 15 亿个参数上击败了 HumanEval 的 40.8 个参数和 49.5 人类评估 MBPP(Python)的最佳模型。
- 多回合多圈一致性一致性:多回合一致性的新方法 - 受上下文蒸馏启发的幽灵注意力(GAtt情境蒸馏)。这些方法通常是提高模型性能的黑客,直到我们更好地了解如何根据我们的需求训练模型。
- 奖励模型:使用两种奖励模型来避免Anthropic工作中发现的安全-有用性权衡。
- 数据控制:大量关于分销控制的评论(正如我所说是RLHF的关键)。这很难复制。
- RLHF过程:使用两阶段RLHF方法,从拒绝抽样 RLHF工艺开始,然后进行拒绝抽样+近端策略优化(PPO),表明RLHF非常重要,“LLM的卓越写作能力......从根本上是由RLHF驱动的”
- 生成:需要根据上下文调整温度参数(例如,创造性任务需要更高的温度,见第5节/图21)
- 安全/危害评估:非常非常长的安全评估(几乎占论文的一半)以及出于安全目的的详细上下文蒸馏和 RLHF。结果并不完美,也有差距,但这是朝着正确方向迈出的一步。
- 许可证:除非您的产品每月活跃用户数为 >= 700 亿,否则该模型可用于商业用途。需要一个表单才能访问,这也将允许您从HuggingFace中心下载模型。(此信息在下载表格“Llama 2社区许可协议”中)。
- 链接:模型(? 访问表,纸张 公告/元链接 代码 使用指南 卡 演示 ?)。
这篇文章非常技术性,因为这是由技术进步定义的一天。Meta 已经确认了许多技术工作,他们的竞争对手传闻使用,但没有披露。至于这个模型的社会影响,我将在本周晚些时候或另一篇文章中做出更多预测,所以请订阅。
哲学
一个重要的起点是尝试剖析模型的目标是什么,以及它与它们可以放入纸质文本中的内容有何不同。Meta作为一个组织显然在政治上处于极其脆弱的地位,这会影响他们对工作的看法。Llama 2 论文感觉就像是对原始 LLaMA 公式的令人难以置信的双倍。他们发现了一些有用的东西,并立即想扩大团队和方法,以使其变得更好。
在任何时候,《骆驼2》都不会让人觉得自己是一个完整的项目,或者很快就会停止。事实上,该模型可能已经训练了几个月,我预计下一个模型正在开发中。论文的支持文本,例如引言和结论,承载了论文的大量激励负担。Meta 非常倾向于信任、问责和通过开源实现人工智能民主化的视角。民主化是我最惊讶的,因为人工智能开发和使用中的权力不平等。
其中,还有一些微妙的观点似乎更具政治性而不是实际性。例如,短语“公开可用的在线资源”被多次使用,但没有详细说明公众的含义。考虑到本文其余部分的详细程度,这很可能意味着 Meta 正在继续竞相获取所有可用的互联网数据,以便在 Reddit 和 Twitter 等地方被完全锁定之前。我怀疑在接下来的几天里,我和许多其他组织的报道将继续挖掘这种数据措辞和一般项目理念。
(Meta还试图非常清楚地表明他们不使用用户数据,避免了巴德的错误。
基本模型
该模型与架构中的原始LLaMA非常相似,除了增加上下文长度和分组查询注意力(GQA)之外,大部分更改都是针对数据和训练过程(这将是大部分帖子)。 grouped-query attention (GQA)上下文长度是聊天用例的可用性要求,后者提高了推理速度。
我们的训练语料库包含来自公开来源的新数据组合,其中不包括来自 Meta 产品或服务的数据。我们努力从某些已知包含大量私人个人信息的网站中删除数据。我们对 2 万亿个代币的数据进行了训练,因为这提供了良好的性能成本权衡,对最真实的来源进行采样,以增加知识并抑制幻觉。
许多愿望中的第一个是他们详细说明了哪些数据集包含大量个人信息!这将是关键,但也与他们“公共在线数据”的一般概念相结合。重新采样更多事实数据也非常有趣,但省略了。
大部分论文都是关于评估和微调的,而不是创建一个伟大的基础模型的黑暗魔法。这可能会加强 Meta 作为开源大型语言模型 (LLM) 领导者的地位。
从这里开始,本文深入探讨了一般 RLHF 流程之后的许多主题。他们致力于在偏好数据上训练奖励模型,然后使用 RL 对其进行优化以提高生成质量。如果您不熟悉,请参见下图:
偏好数据
这篇论文的一大收获是,Meta 公开同意我从 Anthropic 和 OpenAI 朋友那里听到的谣言:奖励模型是 RLHF 的关键,也是模型的关键。为了获得一个好的奖励模型,Meta 不得不努力收集与开源社区正在使用的数据相比极度升级的偏好数据。
总之,Meta 继续使用文献中经过验证的公式,但将其扩大了规模:
- 收集的二元比较而不是其他更高级的反馈类型,类似于1-8的李克特量表,但定性“明显更好,更好,稍微好一点,或者可以忽略不计更好/不确定”。
- 使用多圈首选项,其中模型响应取自具有不同温度的不同模型检查点,以在对之间生成多样性。改变以这种方式使用的完成使首选项数据更加多样化,并为它们稍后部署的一些迭代 RLHF 提供支持。
- 将收集重点放在有用性和安全性(与诚实相反)上,在每个数据收集时为每个数据供应商使用单独的准则(例如,安全通常是一种更具欺骗性的提示方式)。这与Anthropic的作品形成鲜明对比,他们训练了一个有益,诚实和无害的模型。
- 该团队在集合中添加了额外的安全元数据,展示了每个转弯处模型的哪些响应是安全的。当这被传递到建模阶段时,他们“不包括任何选择的响应不安全而另一个响应安全的例子,因为我们相信更安全的响应也会更好/被人类所偏爱。
- 它们没有详细说明正在记录的其他元数据,但很可能是为了识别潜在的错误和数据问题。要标记的其他内容可能是令人困惑的提示,需要工具来解决等。
- 部署迭代收集以进行分发管理:“每周分批收集人工注释。随着我们收集更多的偏好数据,我们的奖励模型得到了改进,我们能够为Llama 2-Chat训练更好的版本。
规模是疯狂的(如果假设供应商的大致市场价格,仅数据就可能花费20万美元8万美元+),转弯次数比通常可用的要多得多。请注意,它们不会与打开的助手数据进行比较或使用,后者也可以用作首选项数据。下图总结了此步骤的数据。
图片.tiff
论文的这一部分感觉像是为更大的事情奠定了基础,这一切都是意料之中的。毕竟,Meta 确实有雄厚的财力。
奖励建模
关于奖励建模的部分主要可以概括为两个重要的细节:
- 两种奖励模型经过训练,以区分有用和安全的目标。
- 使用/需要多少偏好数据的迭代部署和扩展法则。
首先,该论文说他们“训练了两个独立的奖励模型,一个针对有用性(称为有用性RM)进行了优化,另一个针对安全性(Safety RM)进行了优化。它们都建立在基本语言模型之上,线性回归层取代了普通语言模型头。它们不会指示模型在大小方面来自哪个预训练模型检查点,而是始终使用最新的聊天模型来最小化 RLHF 训练中的分布不匹配。
在此过程中需要注意的一些良性技术细节:
- RLHF在开源数据上训练之前的起点奖励模型,“我们没有观察到来自开源偏好数据集的负转移”,因此他们将它们保留在以后的模型中。这些首批模型用于对供应商的早期数据进行采样。
- 保留了一些Anthropic的无害数据(他们自己的90%),但没有太多解释为什么需要它。
- 此外,只训练一个纪元(文献中的标准)。这是为了避免奖励模型非常容易过度拟合。
- 奖励模型的平均准确率仍然仅在 65-70% 范围内(如文献中),但也在集合中“显着不同”的标签上进行测试并在那里做得更好(当标记者偏好共识很强时,准确率为 80-90%,太好了)!
更有趣的一点如下:
- 向奖励模型损失函数添加保证金项(与偏好置信度成正比),提高有用性。这是 OpenAI 和 Anthropic 都使用的损失函数的延续,这似乎是一个非常合乎逻辑的决定,只要标签器的分数不太嘈杂(Meta 也使用每对 3 票的共识)。
- 随着preference delta between model comparisons decreases over batches模型在其设置中收敛,模型比较之间的首选项增量在数据供应商的批次中减小(图 25,附录)。
- 作者将他们的奖励模型与提示 GPT4 作为奖励模型进行了比较,他们击败了它,但仅在开源数据上训练的奖励模型并没有击败 GPT4。
该图展示了奖励模型的准确性如何随时间推移而变化。这些数据供应商通常分批发送数据,以验证流程是否随时间推移而工作,并让模型部署人员有时间调整代系和提示的分布。请注意,下面的OpenAssistant奖励模型(基于DeBERTa V3 Large)并不是开源社区指出的“好”或任何值得注意的模型。不知道他们为什么包括它。另一方面,GPT 4 作为奖励模型是一个足够强大的基准,需要考虑。
截图 2023-07-17 在 12.01.13 下午.png
当他们准备微调部分时,Meta 将这个真相炸弹隐藏在讨论结果的段落中:
我们注意到,奖励模型的准确性是Llama 2-Chat最终表现的最重要代理之一。
众所周知,RLHF利用了奖励模型中的所有知识,无论好坏,所以这非常符合我的世界观。他们这么说的事实让我更加恼火,因为没有人开源一个强大的奖励模型来调查潜在的问题和利用率。
RLHF 和微调
这是我最喜欢的部分。Meta 展示了他们如何使用 RLHF 来有意义地改进他们的模型。我最喜欢的图,下面,我切到前面以确保你看到它。从本质上讲,他们采用了最好的奖励模型,并在其上评估了他们的各种模型。他们用它来展示RLHF过程如何将生成的文本转移到更高的奖励上。如果您的奖励模型工作正常,那么这些步骤将有意义地改善您的最终输出。
Meta 迭代训练 5 个具有递进数据分布的 RLHF 版本。
截图 2023-07-17 在 11.49.19 上午.png
从一开始,Meta 就指出数据质量对这些模型的重要性(强调我的):
质量就是您所需要的一切。
第三方SFT数据可以从许多不同的来源获得,但我们发现其中许多数据的多样性和质量不足 - 特别是对于使LLM与对话式指令保持一致......通过从第三方数据集中取出数百万个示例,并使用来自我们自己基于供应商的注释工作的数量更少但质量更高的示例,我们的结果得到了显着改善。我们发现,数万个左右的SFT注释足以获得高质量的结果。
Meta首先说开源指令数据集是meh。在非富裕的开源社区中,数据质量的最新趋势是过滤数据集和“未经审查”数据的概念,这可能发生在他们进行监督微调(SFT)之后。注释数据的数量(27,540)实际上仍然非常接近Anthropic报道的和关于OpenAI的传闻(~10k数量级)。这是可重复性的胜利。
这一切都带有一个星号,表示高质量数据之间仍存在多少差异:
我们还观察到,不同的注释平台和供应商可能导致下游模型性能明显不同,这突出了即使在使用供应商获取注释时数据检查的重要性。为了验证我们的数据质量,我们仔细检查了一组180个示例,将人类提供的注释与通过人工审查的模型生成的样本进行比较。令人惊讶的是,我们发现从生成的SFT模型中采样的输出通常与人类注释者手写的SFT数据竞争,这表明我们可以重新确定优先级,并将更多的注释工作投入到基于偏好的RLHF注释中。
这里缺少的部分可能是他们用来识别强数据的过滤。每个人都知道一些开放数据集是有偏见和奇怪的,但不知道如何轻松修复它(我怀疑答案是大量的体力劳动)。在这些成为常识之前,指令模型的开源训练可能仍然会落后。
一旦数据质量部分建立起来,Meta就会专注于虚幻的强化学习组件:
强化学习被证明非常有效,特别是考虑到其成本和时间的有效性。我们的研究结果强调,RLHF成功的关键决定因素在于它在整个注释过程中促进人类和LLM之间的协同作用。即使有熟练的注释者,每个人的写作也有很大的差异。在SFT注释上微调的模型可以学习这种多样性,不幸的是,包括执行不佳的注释的尾端。此外,模型的性能取决于最熟练的注释者的写作能力。
这很有趣,因为这是第一篇说RLHF从根本上改善了模型天花板的论文,而其他研究小组则说RLHF很重要,但有点像一种风格或安全工具。Meta 确实明确表示,这个过程“需要大量的计算和注释资源”,这长期以来一直被怀疑。
现在,我们将继续介绍一些技术细节,了解他们为 RL 部分做了什么。正如我一直在为RL所说,在高层次上,它似乎与分布控制报告以外的文献相当一致(这非常令人兴奋)。
在整个RLHF阶段,迭代奖励建模数据的积累与模型增强并行对于确保奖励模型保持在分布范围内至关重要。
这就是为什么我一直得出结论,高效的RLHF至少需要一个中等规模的团队。一个 1-3 人的团队可以发布一个好的指令模型,但我认为这种类型的 RLHF 的限制可能至少为 6-10 个。随着时间的推移,这个数字会下降,但这种类型的工作需要与外部公司签订合同和密切联系,由于文化和沟通不匹配,这总是有点时间同步。
作者使用的RLHF基线是PPO和拒绝抽样(RS)微调(类似于N采样的最佳)。PPO 是在线 RL(可以这么说的试错学习)中最受欢迎的算法,可能是因为它最受欢迎。拒绝抽样是指从语言模型策略中抽取一批 K 完成,然后跨奖励模型评估它们,返回最佳完成。如果通过奖励模型对最佳几个输出进行重新训练,则策略可以改进。
这再次证实了该领域许多有趣的直觉,但并不一定回答所有关于原因的问题。大多数人都知道这两个选项都非常强大(请记住,OpenAI 使用 PPO 用于 InstructGPT 和 Rejection Sampling for WebGPT 版本),但似乎 PPO 是最终最好的方法。为什么会这样,我们仍然在学习。
作者对这些方法的比较方式以及何时使用它们做了一些基本说明:
- 拒绝抽样 (RS) 搜索的广度更广(每个提示的代数更多),PPO 每个奖励模型更新更多。
- 方法之间的最终差异并不那么明显(类似于WebGPT的发现)。
- 通过RLHFV4,他们只使用剔除抽样,然后在最后一步使用PPO和甩样进行微调(PPO在某些评估中略有优势)
评估(能力)
本文以多种方式评估了他们的模型。这里有几件事要看。首先,如果你看一下自动基准测试,例如你在Open LLM排行榜(MMLU,ARC等)中听到的首字母缩略词,LLAMA 2比任何其他开源模型都要好。在论文中,我发现很多有趣的内容来自 Meta 的人工评估(例如专业数据标记员)和 LLM 作为法官类型的努力(我已经广泛工作并且很流行)。
虽然我不打算继续讨论它,因为它不是那么有趣,但重要的是基本模型在自动和不太华丽的基准测试(如 MMLU)上得分更高。这种基本模型功能是其他一切所依赖的。这就是上面的 RLHF 过程所操纵的,也是我们在使用有效的微调方法使 Llama 2 成为我们自己的方法时都将使用的。它不会在论文中占据大量空间,但他们没有详细说明的大量数据工作可能是这些“基本”评估的最大因素。 然后,RLHF使模型更易于使用,并使这些知识可用。
其次,基础模型评估在某些方面是在与不公平的游戏作斗争。与近源模型相比,他们也报告了他们的结果(据我所知,它远远落后于 GPT4 和 Claude 2),可以在没有开源验证的情况下提示和操纵以获得高分。我很高兴这还没有完全成为一场分数操纵的竞赛。
本文的其余部分深入研究了当时流行的评估技术。人类注释器和LLM作为法官今天很受欢迎,因为它们既通用又可用。想出一种新的评估技术是非常困难的,也不可能用新模型很好地推出它。评估完全是关于一个人相对于同龄人的分数和透明度。
Meta 从图 1 开始论文,图1 确实有一个很棒的标题(下图),显示了该模型在与人类标记机的竞争中脱颖而出:
在审查这些结果时,重要的是要注意,由于提示集的局限性、综述指南的主观性、个体评分者的主观性以及比较世代的固有困难,人工评价可能会很嘈杂。
他们谈论的结果展示了 Meta 如何进入开源主导地位。请务必查看顶部栏以查看正在比较的尺寸:
截图 2023-07-17 在 12.37.34 下午.png
他们也采用类似的技术,但使用模型作为判断(他们的奖励模型和 GPT4)。这与Anthropic的宪法AI工作类似(提供有关模型版本之间差异的更多信息!展示RLHF如何成为这样的时变概念是真正需要的。接下来,需要有人分享每一步的数据和训练情况,以便我们知道要寻找什么迹象。
在性能方面,这些模型在 RLHFv3 之后超越了 ChatGPT(在此图中,您可以看到 PPO 方法如何在右上角提供小提示):
截图 2023-07-17 在 12.35.20 下午.png
为了让这样的情节展示一般能力,论文中还有很多其他的评价。例如,他们花了很多时间设置奖励模型,我建议您查看。
奖励模型测试的一些亮点是:
- 将奖励模型分数校准到一对之间的人类标记器偏好(仍然是实质性的误差线)——这是一条直线,更高的人类偏好导致更大的分数。我怀疑这种行为非常难以获得。
- 他们将他们的奖励模型与在开源数据集上训练的奖励模型进行了比较。这有助于展示开源空间中的事情是如何实现的。
人体/模型评估的一些亮点是:
- 在 ChatGPT 和 Llama-2-Chat 输出上评估模型,以避免模型因自己的风格而产生偏差,从而增强自己的结果。这是我在论文中最高兴的事情之一。
- 有趣的使用评分者间可靠性指标(更多的人应该使用这些指标),比如Gwet的AC1 / 2,这是为这项工作设计合理的统计工具。当模型胜率更均匀时,IRR 会下降,因此显示平局的结果应该使用更大的误差线。
- 承认人类评估的局限性:大型评估提示集并未涵盖所有现实世界的用途,缺乏编码/推理评估,仅评估最终的对话转折。
我对评估感到兴奋,这让我不禁要问:在这样的功能上可以击败 ChatGPT 的最小模型是什么? 这是开源的下一个挑战。
安全
到目前为止,这个模型和报告的安全方面是现有开源模型的最大改进(我很惊讶Falcon 40b-instruct在这方面做得有多好,听说那里的训练过程相对宽松,但那是另一回事了)。本节详细介绍了安全与各种培训和评估步骤的关系。我将在未来更深入地研究这个问题,因为随着这个模型的使用增加,这个故事将会展开,特别是考虑到现在公众对人工智能的批评。
我在下面包含了安全的核心图,结果包括更多关于偏见、红队、预训练步骤等等。此图和另一个图 17(b) 显示了该模型在 2000 次对抗性提示中的违规率和红队分数如何被评为更安全。
图片.tiff
鉴于从大局来看,这些模型是朝着正确方向迈出的一步,我想给作者今天的胜利,而不是在这方面过多地批评他们。当我在这里发现有趣的事情时,或者当其他人分享模型的功能时,我一定会更新你。
我无法动脑筋的问题是:培训对安全敏感吗? 例如,为什么 34b 参数模型显示出更差的安全性,以至于它们延迟释放?如果转到图 18,则在大多数这些模型的多圈设置中尤其如此。那里有很多东西要学。
杂项
最后,我发现还有一些有趣的事情,我可以快速评论:
我们在 Meta 的研究超级集群 (RSC)(Lee 和 Sengupta,2022 年)以及内部生产集群上对模型进行了预训练 .
我觉得这可能更像是计算紧缩,而不是他们所说的原因:
通过这种双集群设置,我们能够比较这些不同类型的互连对大规模培训的适用性。
他们还深入探讨了对事物的美德信号:
我们的开放发布策略也意味着这些预培训成本不需要由其他公司承担,从而节省更多的全球资源。
最后,商业许可作为一个星号:
附加商业条款。如果在 Llama 2 版本发布日期,被许可方或被许可方的关联公司提供的产品或服务的月活跃用户在上一个日历月的月活跃用户超过700 亿,您必须向 Meta 申请许可,Meta可以自行决定授予您许可, 并且您无权行使本协议项下的任何权利,除非或直到 Meta另行明确授予您此类权利。
总而言之,到目前为止,我真的很喜欢研究这个模型,还有更多的事情要做。我将密切关注用例,并期望在周五和/或下周撰写后续文章。
我需要继续深入研究的部分是负责任的使用指南和安全评估(在该领域比技术细节更容易误导)。无论如何,如果我错过了什么,请告诉我!