从 DeepSeek V3/R1 开始关注 DeepSeek 工作的人很容易认为 DeepSeek 大量的工作都是在工程上优化效率,但是回看 DeepSeek 过去一年的论文才会发现他们其实一直在模型架构和训练方法上做各种创新,而 V3 和 R1 只是在之前架构创新的基础上进行 Scale。DeepSeek MoE 这篇论文就介绍了 DeepSeek 在 MoE 架构上的主要创新,现在看上去也很有希望成为未来 MoE 架构的标准。
MoE vs Dense
先说一下 MoE 和传统的 Dense 架构的区别。早期的 LLM 基本都是 Dense 架构,也就是每生成一个 Token 需要激活所有的神经元参与计算,这种方式其实和人脑的思考方式是有很大区别的,人脑是不会任何问题都需要调动所有脑细胞的,如果这样的话人早就累死了。所以很自然的一个想法就是生成 Token 的时候不要再激活所有的神经元了,每次只激活和当前任务最相关的神经元,于是就有了 MoE(Mixture of Experts) 架构,把 LLM 里每一层的神经元分割成 N 个 Expert,通过 Router 去选择 K 个最相关的 Expert 激活。
这个架构的好处就是在推理的时候不需要激活所有的神经元,计算量会大幅下降。在 DeepSeek MoE 前最常见的 8 选 2 模式下计算量可以下降到接近 Dense 模型的三分之一。
MoE 的架构看上去很理想,但本质上是在用少量 Experts 来模拟 Dense 模型的表现,所以关键是在每个 Expert 是否有足够的专业性,能否真的模拟 Dense 模型的表现。如果类比人脑,当神经元足够特化时,特定任务只需要激活少量神经元即可完成。
DeepSeek MoE 这篇论文就介绍了他们为了把每个 Expert 专业性推到极致所做的两个创新:
- 更多更小的 Expert
- 知识共享 Expert
更多更小的 Expert
使用更多更小的 Expert 来增加每个 Expert 的专业性看似是个很符合直观的思路,但是之前主流 MoE 都是 8 个或者 16 个 Expert。可以想象 LLM 要处理的问题类型千千万,这个数量规模的 Expert 显然不可能做到高度的专业化,每个 Expert 都会有大量当前任务无关的知识。
但是随着 Expert 的数量变大,训练的难度也会变大,Router 很容易只选择少数几个 Expert 导致负载的极度不均衡。最终,理论上的 MoE 架构可能会变成每次只激活同一组 Expert 的小模型。因此,之前大部分 MoE 架构的 Expert 数量都不会太多。
DeepSeek 经过一组设计的损失函数,给重复选择同一个 Expert 增加了惩罚,从而迫使 Router 更均衡的去选择 Expert。通过这个方式 DeepSeek 解决了训练的问题,开始一步步尝试 scale Expert 的数量。从这篇论文里的 64 选 6,扩展到 128 选 12,到 V2 的 160 选 6,再到 V3 的 256 选 8。
可以看到 DeepSeek 一步步将 Expert 数量扩展,而且所需要选中的 Expert 比例也从 9% 一步步降低到 2%,证明了确实在 Expert 足够专业化后只需要更少部分的激活就可以完成对应的任务。
知识共享 Expert
随着 Expert 变小和 Expert 数量增加其实还会带来另外一个问题,那就是每个 Expert 除了需要特定领域的知识外,其实还需要一些通用知识,例如一些通用的语言理解和逻辑分析,可能是每个 Expert 都需要的。如果每个 Expert 都记忆了相关知识那么其实会造成大量的知识冗余,当 Expert 数量变多时,问题会更加明显。这其实会限制每个 Expert 的专业化,训练和推理过程中也会造成资源的浪费。
DeepSeek 提出的做法是增加一组共享 Expert,这一组 Expert 每个训练样本都会被激活,希望他们在训练过程中可以学到通用的知识,这样其他的 Expert 就无需再去学习这些通用知识,只需要学习专业知识了。当推理过程中这组共享 Expert 也会每次都被激活,来提供通用的知识信息。
这同样是一个很符合直觉的架构创新,但是由于之间 MoE 架构的 Expert 规模本来就不大,这个优化的意义其实并不明显,只有当规模上去了这个问题才会暴露出来。在这篇论文里 DeepSeek 还根据 Expert 数量按比例扩充了共享型 Expert 数量,但是随着更多的训练和实践,发现其实并不需要那么多共享型 Expert,等到 V3 的时候其实只使用到了 1 个共享型 Expert。
我的DeepSeek部署资料已打包好(自取↓)
https://pan.quark.cn/s/7e0fa45596e4
但如果你想知道这个工具为什么能“听懂人话”、写出代码 甚至预测市场趋势——答案就藏在大模型技术里!
❗️为什么你必须了解大模型?
1️⃣ 薪资爆炸:应届大模型工程师年薪40万起步,懂“Prompt调教”的带货主播收入翻3倍
2️⃣ 行业重构:金融、医疗、教育正在被AI重塑,不用大模型的公司3年内必淘汰
3️⃣ 零门槛上车:90%的进阶技巧不需写代码!会说话就能指挥AI
(附深度求索BOSS招聘信息)
⚠️警惕:当同事用DeepSeek 3小时干完你3天的工作时,淘汰倒计时就开始了。
那么,如何系统的去学习大模型LLM?
作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?老师啊,我自学没有方向怎么办?老师,这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!当然这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
👉大模型学习指南+路线汇总👈
我们这套资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费
】
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!