MoE实现细节

作者: ShowMeAI

时间: 2023-12-19

标签: None

阅读(978)

Mistral AI 是欧洲最强模型团队，核心成员是来自 DeepMind 和 Meta 的三位年轻大佬。公司成立后不久就成功推出 Mistral-7B 开源模型，近期推出的 Mixtral-8x7B-MoE 开源模型更是凭借超强性能吸引了全世界的目光。

为什么 Mixtral-8x7B 的模型性能这么强呢？因为它用到了 Mixture of Experts (MoE) 技术，中文将其翻译为「混合专家」。

逛B站时发现 @良睦路程序员更新了，讲的正好是近期很火的 MoE，内容包括：MoE的网络架构细节、MoE是否具备彻底颠覆LLaMa的潜力、MoE 与传统 LLaMa 架构的区别是什么……

那就非常值得看一看了~ 跟着 UP 主用30分钟的时间，对 MoE 一探究竟！！(莫慌，UP可以把很技术的内容讲成大！白！话！
19212437-2023-12-19T13:25:02.png
为了帮助大家理解 MoE (Mixture of Experts) 的工作原理，@良睦路程序员举了一个非常生活化的例子：将「Expert」理解成「工具」，8个 MoE 就像我们吃饭时的8个工具，比如锅铲、筷子、叉子、剪刀、手……

在吃手撕羊肉时，想吃爽的话首选的2个工具是「手」和「叉子」；而喝汤的时候，最合适的2个工具就变成了「勺子」「筷子」。

这其实就对应着 MoE 的调度机制：在不同的维度里，从8个 MoE 里选择最合适的2个，然后把二者输出的权重相加，然后无限次重复。这样解释就可以轻松理解上方这张原理图了，更多讲解细节请看原视频吧！

最新文章

分类

标签云

阅读排行榜

推荐排行榜

回复排行榜

最近回复

邮件订阅