4月18日,Meta 宣布开源 LLaMa 3 系列大语言模型,包括 8B (80亿参数)、70B (700亿参数)、400B+ (仍在训练中) 三个参数规模。
27104728-2024-04-27T02:43:08.png
27104526-2024-04-27T02:41:06.png
在 Meta 公布的基准测试结果中,8B 和 70B 大模型表现相当出色,追平甚至超越了同等参数量级的大模型。

Meta 官方预告,400B 大模型的设计目标包括多模态功能、多语言对话能力、更长的上下文窗口、更强大的整体能力,训练结束后会发布一份详细的研究论文。

Meta LLaMa 系列大模型是完全开源的,即研究人员和开发者可以自由访问、使用和修改这些模型,这极大加速了全球 LLM 技术和应用的发展节奏。尤其是 LLaMa 2 发布后,快速成为众多大模型公司和创业公司的研究基础,被认为是 OpenAI GPT 系列最大的竞争对手 (之一)。说来也是有趣,OpenAI 的诞生是为了对抗科技巨头对AI技术的垄断,如今却坚定执行「闭源」策略。而巨头们则高高举起了「开源」大旗,Meta LLaMa、Google Gemma、X Grok 陆续发布…… 时移事异啊~

LLaMa 3 发布是大模型开源界的里程碑式大事件,社区相关测评和讨论也在陆续展开。

  • LLaMa 3-70B 应该是 70B 模型以内最强的模型,GPT-3.5+ 水平;LlaMa 3-400B 训练完成后接近 GPT-4-Turbo 水平。这意味着,几个月之后,开源模型将基本追平目前最先进的闭源模型。
  • 如果 Meta 持续开源 LlaMa 后续所有模型,国内则应该重视「将 LlaMa 系列更好中文化」的相关技术。国内各大模型厂商将展开新一轮的竞争,几个月后可能会出现 GPT-4 级别的开源文本和多模态模型;届时如果出现「封杀 LlaMa」的声音也不必感到奇怪。
  • 目前开源阵营整体弱于闭源阵营。但从最近一年半的技术发展来看,开源模型与最好的闭源模型的差距,是在逐步缩小的。
  • LLaMa 3 没有采用 MoE (Mixture of Experts,混合专家) 结构,而是选择了 Dense 模型结构。这也很正常。同等规模的 Dense 模型效果是优于 MoE 模型的,MoE 的主要作用是降低模型训练及推理成本。
  • 与 LLaMa 2 相比,LLaMa 3 的主要改变在于:① Token 词典从 32K 拓展到 128K → 增加编码效率;② 引入 Grouped Query Attention (GQA) → 减少推理过程中的 KV 缓存大小,增加推理效率;③ 上下文长度从 4K 拓展到 8K;④ 训练数据量从 2T Tokens 扩展到 15T Tokens,其中代码数据扩充了4倍 → 大幅度提升了代码能力和逻辑推理能力。
  • 分析 Meta 的训练思路可以判断,2025年下半年之前,Scaling law 仍然可行,也就是同时增加数据和模型规模来快速提升模型能力。之后在无法找到大量新数据的情况下,则需要借助「合成数据」技术,靠机器自己产生新的训练数据。
  • 目前「合成数据」技术应用最好的产品是 DALLE-3 和 Sora。

LLaMa 3 使用方式
直接使用

第三方 API

本地部署