【LLM MoE Pretrain】论文分享:DeepSeekMoE

论文名称:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

论文链接:https://arxiv.org/abs/2401.06066

机构:DeepSeek AI + 北大 + 清华 + 南大

简介

DeepSeekMoE这篇论文,早在2024年1月就发布出来了,当时毕竟是国内首个开源MoE大模型,而且效果确实不错。我们团队内部很快就阅读了技术报告,并进行了一些讨论,现在过去快一年半了,市面上确实也出现越来越多的MoE架构模型,证明了这种架构的潜力。

现在回头再看这篇论文,在记录关键内容的同时,也谈谈自己的认识。

相关常识

MoE 是 DeepSeek 提出的吗?

MoE的全称是 Mixture-of-Experts,这个架构不是DeepSeek提出来的,早在1991年就有相关论文提出该概念了,附上论文里面贴的三篇论文:

①【1991】Adaptive Mixtures of Local Experts

②【1994】Hierarchical mixtures of experts and the EM algorithm

③【2017】Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer

MoE 是 LLM 的专属架构吗?

不是,严格来说,是属于神经网络架构的一种。目前为止,LLM的基础架构是基于Transformer不断改进的,Transformer也是一种神经网络的结构。

DeepSeek 第一个应用了 MoE 架构?

不是,在其之前已经有多个知名模型采用了MoE架构了,比如Mistral AI的Mixtral 8x7B、Google的GShard与Switch Transformer等,OpenAI的GPT-4疑似也采用了MoE架构。

DeepSeek MoE 是第一个开源的 MoE 大模型?

国际上首个开源的MoE大模型是Mixtral 8x7B(2023年12月发布),DeepSeek MoE是国内首个开源的MoE大模型,是否为闭源第一,不确定。

DeepSeek 全系列都是 MoE 大模型?

不是,MoE(DeepSeek MoE 16B) 和 Dense(DeepSeek 67B) 都有。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

依然易冷

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值