论文名称:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
论文链接:https://arxiv.org/abs/2401.06066
机构:DeepSeek AI + 北大 + 清华 + 南大
简介
DeepSeekMoE这篇论文,早在2024年1月就发布出来了,当时毕竟是国内首个开源MoE大模型,而且效果确实不错。我们团队内部很快就阅读了技术报告,并进行了一些讨论,现在过去快一年半了,市面上确实也出现越来越多的MoE架构模型,证明了这种架构的潜力。
现在回头再看这篇论文,在记录关键内容的同时,也谈谈自己的认识。
相关常识
MoE 是 DeepSeek 提出的吗?
MoE的全称是 Mixture-of-Experts,这个架构不是DeepSeek提出来的,早在1991年就有相关论文提出该概念了,附上论文里面贴的三篇论文:
①【1991】Adaptive Mixtures of Local Experts
②【1994】Hierarchical mixtures of experts and the EM algorithm
③【2017】Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer
MoE 是 LLM 的专属架构吗?
不是,严格来说,是属于神经网络架构的一种。目前为止,LLM的基础架构是基于Transformer不断改进的,Transformer也是一种神经网络的结构。
DeepSeek 第一个应用了 MoE 架构?
不是,在其之前已经有多个知名模型采用了MoE架构了,比如Mistral AI的Mixtral 8x7B、Google的GShard与Switch Transformer等,OpenAI的GPT-4疑似也采用了MoE架构。
DeepSeek MoE 是第一个开源的 MoE 大模型?
国际上首个开源的MoE大模型是Mixtral 8x7B(2023年12月发布),DeepSeek MoE是国内首个开源的MoE大模型,是否为闭源第一,不确定。
DeepSeek 全系列都是 MoE 大模型?
不是,MoE(DeepSeek MoE 16B) 和 Dense(DeepSeek 67B) 都有。

最低0.47元/天 解锁文章
628

被折叠的 条评论
为什么被折叠?



