Meta发布LLaMa 3系列大模型

4月18日，Meta 宣布开源 LLaMa 3 系列大语言模型，包括 8B (80亿参数)、70B (700亿参数)、400B+ (仍在训练中) 三个参数规模。
27104728-2024-04-27T02:43:08.png
27104526-2024-04-27T02:41:06.png
在 Meta 公布的基准测试结果中，8B 和 70B 大模型表现相当出色，追平甚至超越了同等参数量级的大模型。

Meta 官方预告，400B 大模型的设计目标包括多模态功能、多语言对话能力、更长的上下文窗口、更强大的整体能力，训练结束后会发布一份详细的研究论文。

Meta LLaMa 系列大模型是完全开源的，即研究人员和开发者可以自由访问、使用和修改这些模型，这极大加速了全球 LLM 技术和应用的发展节奏。尤其是 LLaMa 2 发布后，快速成为众多大模型公司和创业公司的研究基础，被认为是 OpenAI GPT 系列最大的竞争对手 (之一)。说来也是有趣，OpenAI 的诞生是为了对抗科技巨头对AI技术的垄断，如今却坚定执行「闭源」策略。而巨头们则高高举起了「开源」大旗，Meta LLaMa、Google Gemma、X Grok 陆续发布…… 时移事异啊~

LLaMa 3 发布是大模型开源界的里程碑式大事件，社区相关测评和讨论也在陆续展开。

LLaMa 3-70B 应该是 70B 模型以内最强的模型，GPT-3.5+ 水平；LlaMa 3-400B 训练完成后接近 GPT-4-Turbo 水平。这意味着，几个月之后，开源模型将基本追平目前最先进的闭源模型。
如果 Meta 持续开源 LlaMa 后续所有模型，国内则应该重视「将 LlaMa 系列更好中文化」的相关技术。国内各大模型厂商将展开新一轮的竞争，几个月后可能会出现 GPT-4 级别的开源文本和多模态模型；届时如果出现「封杀 LlaMa」的声音也不必感到奇怪。
目前开源阵营整体弱于闭源阵营。但从最近一年半的技术发展来看，开源模型与最好的闭源模型的差距，是在逐步缩小的。
LLaMa 3 没有采用 MoE (Mixture of Experts，混合专家) 结构，而是选择了 Dense 模型结构。这也很正常。同等规模的 Dense 模型效果是优于 MoE 模型的，MoE 的主要作用是降低模型训练及推理成本。
与 LLaMa 2 相比，LLaMa 3 的主要改变在于：① Token 词典从 32K 拓展到 128K → 增加编码效率；② 引入 Grouped Query Attention (GQA) → 减少推理过程中的 KV 缓存大小，增加推理效率；③ 上下文长度从 4K 拓展到 8K；④ 训练数据量从 2T Tokens 扩展到 15T Tokens，其中代码数据扩充了4倍 → 大幅度提升了代码能力和逻辑推理能力。
分析 Meta 的训练思路可以判断，2025年下半年之前，Scaling law 仍然可行，也就是同时增加数据和模型规模来快速提升模型能力。之后在无法找到大量新数据的情况下，则需要借助「合成数据」技术，靠机器自己产生新的训练数据。
目前「合成数据」技术应用最好的产品是 DALLE-3 和 Sora。

LLaMa 3 使用方式
直接使用

Hugging Face：https://huggingface.co/chat Replicate - 8B
模型：hat/https://replicate.com/meta/meta-llama-3-8b Replicate - 70B
模型：https://replicate.com/meta/meta-llama-3-70b Meta
AI：https://ai.meta.com

第三方 API

微软 Azure：https://azuremarketplace.microsoft.com/en-us/marketplace/apps/metagenai.meta-llama-3-8b-chat-offer
即将上线 AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、NVIDIA NIM、Snowflake 等平台，并且得到了 AMD、AWS、Dell、Intel、NVIDIA、Qualcomm 提供的硬件平台支持

本地部署

Meta 官网：https://llama.meta.com/llama-downloads
Github：https://github.com/meta-llama/llama3

Meta发布LLaMa 3系列大模型

最新文章

分类

标签云

阅读排行榜

推荐排行榜

回复排行榜

最近回复

邮件订阅