MoE实现细节
Mistral AI 是欧洲最强模型团队,核心成员是来自 DeepMind 和 Meta 的三位年轻大佬。公司成立后不久就成功推出 Mistral-7B 开源模型,近期推出的 Mixtral-8x7B-MoE 开源模型更是凭借超强性能吸引了全世界的目光。
为什么 Mixtral-8x7B 的模型性能这么强呢?因为它用到了 Mixture of Experts (MoE) 技术,中文将其翻译为「混合专家」。
逛B站时发现 @良睦路程序员 更新了,讲的正好是近期很火的 MoE,内容包括:MoE的网络架构细节、MoE是否具备彻底颠覆LLaMa的潜力、MoE 与传统 LLaMa 架构的区别是什么……
那就非常值得看一看了~ 跟着 UP 主用30分钟的时间,对 MoE 一探究竟!!(莫慌,UP可以把很技术的内容讲成大!白!话!
为了帮助大家理解 MoE (Mixture of Experts) 的工作原理,@良睦路程序员 举了一个非常生活化的例子:将「Expert」理解成「工具」,8个 MoE 就像我们吃饭时的8个工具,比如锅铲、筷子、叉子、剪刀、手……
在吃手撕羊肉时,想吃爽的话首选的2个工具是「手」和「叉子」;而喝汤的时候,最合适的2个工具就变成了「勺子」「筷子」。
这其实就对应着 MoE 的调度机制:在不同的维度里,从8个 MoE 里选择最合适的2个,然后把二者输出的权重相加,然后无限次重复。这样解释就可以轻松理解上方这张原理图了,更多讲解细节请看原视频吧!