Meta发布LLaMa 3系列大模型
4月18日,Meta 宣布开源 LLaMa 3 系列大语言模型,包括 8B (80亿参数)、70B (700亿参数)、400B+ (仍在训练中) 三个参数规模。
在 Meta 公布的基准测试结果中,8B 和 70B 大模型表现相当出色,追平甚至超越了同等参数量级的大模型。
Meta 官方预告,400B 大模型的设计目标包括多模态功能、多语言对话能力、更长的上下文窗口、更强大的整体能力,训练结束后会发布一份详细的研究论文。
Meta LLaMa 系列大模型是完全开源的,即研究人员和开发者可以自由访问、使用和修改这些模型,这极大加速了全球 LLM 技术和应用的发展节奏。尤其是 LLaMa 2 发布后,快速成为众多大模型公司和创业公司的研究基础,被认为是 OpenAI GPT 系列最大的竞争对手 (之一)。说来也是有趣,OpenAI 的诞生是为了对抗科技巨头对AI技术的垄断,如今却坚定执行「闭源」策略。而巨头们则高高举起了「开源」大旗,Meta LLaMa、Google Gemma、X Grok 陆续发布…… 时移事异啊~
LLaMa 3 发布是大模型开源界的里程碑式大事件,社区相关测评和讨论也在陆续展开。
- LLaMa 3-70B 应该是 70B 模型以内最强的模型,GPT-3.5+ 水平;LlaMa 3-400B 训练完成后接近 GPT-4-Turbo 水平。这意味着,几个月之后,开源模型将基本追平目前最先进的闭源模型。
- 如果 Meta 持续开源 LlaMa 后续所有模型,国内则应该重视「将 LlaMa 系列更好中文化」的相关技术。国内各大模型厂商将展开新一轮的竞争,几个月后可能会出现 GPT-4 级别的开源文本和多模态模型;届时如果出现「封杀 LlaMa」的声音也不必感到奇怪。
- 目前开源阵营整体弱于闭源阵营。但从最近一年半的技术发展来看,开源模型与最好的闭源模型的差距,是在逐步缩小的。
- LLaMa 3 没有采用 MoE (Mixture of Experts,混合专家) 结构,而是选择了 Dense 模型结构。这也很正常。同等规模的 Dense 模型效果是优于 MoE 模型的,MoE 的主要作用是降低模型训练及推理成本。
- 与 LLaMa 2 相比,LLaMa 3 的主要改变在于:① Token 词典从 32K 拓展到 128K → 增加编码效率;② 引入 Grouped Query Attention (GQA) → 减少推理过程中的 KV 缓存大小,增加推理效率;③ 上下文长度从 4K 拓展到 8K;④ 训练数据量从 2T Tokens 扩展到 15T Tokens,其中代码数据扩充了4倍 → 大幅度提升了代码能力和逻辑推理能力。
- 分析 Meta 的训练思路可以判断,2025年下半年之前,Scaling law 仍然可行,也就是同时增加数据和模型规模来快速提升模型能力。之后在无法找到大量新数据的情况下,则需要借助「合成数据」技术,靠机器自己产生新的训练数据。
- 目前「合成数据」技术应用最好的产品是 DALLE-3 和 Sora。
LLaMa 3 使用方式
直接使用
- Hugging Face:https://huggingface.co/chat Replicate - 8B
- 模型:hat/https://replicate.com/meta/meta-llama-3-8b Replicate - 70B
- 模型:https://replicate.com/meta/meta-llama-3-70b Meta
- AI:https://ai.meta.com
第三方 API
- 微软 Azure:https://azuremarketplace.microsoft.com/en-us/marketplace/apps/metagenai.meta-llama-3-8b-chat-offer
- 即将上线 AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、NVIDIA NIM、Snowflake 等平台,并且得到了 AMD、AWS、Dell、Intel、NVIDIA、Qualcomm 提供的硬件平台支持
本地部署