DeepSeekV3技术创新

最新推荐文章于 2025-06-22 15:21:57 发布

转载最新推荐文章于 2025-06-22 15:21:57 发布 · 280 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://zhuanlan.zhihu.com/p/15900918930

文章标签：

#GPU #大模型

LLM推理优化专栏收录该内容

39 篇文章

订阅专栏

首先，架构方面，DeepSeek V3采用了创新的负载均衡策略和训练目标。

研发团队在DeepSeek-V2架构的基础上，提出了一种无辅助损失的负载均衡策略，能最大限度减少负载均衡而导致的性能下降。

具体而言，该策略为MoE中的每个专家引入了一个偏置项（bias term），并将其添加到相应的亲和度分数中，以确定top-K路由。

研发团队还证明，多token预测目标（Multi-Token Prediction，MTP）有利于提高模型性能，可以用于推理加速的推测解码。

预训练方面，DeepSeek V3采用FP8训练。研发团队设计了一个FP8混合精度训练框架，首次验证了FP8训练在极大规模模型上的可行性和有效性。

论文中还提到了跨节点MoE训练中的通信瓶颈问题。解决策略包括，设计DualPipe高效流水线并行算法：在单个前向和后向块对内，重叠计算和通信。

这种重叠能确保随着模型的进一步扩大，只要保持恒定的计算和通信比率，就仍然可以跨节点使用细粒度专家，实现接近于0的all-to-all通信开销。

另外，研发团队还开发了高效的跨节点all-to-all通信内核等。

后训练方面，DeepSeek V3引入了一种创新方法，将推理能力从长思维链模型（DeepSeek R1）中，蒸馏到标准模型上。这在显著提高推理性能的同时，保持了DeepSeek V3的输出风格和长度控制。

其他值得关注的细节还包括，DeepSeek V3的MoE由256个路由专家和1个共享专家组成。在256个路由专家中，每个token会激活8个专家，并确保每个token最多被发送到4个节点。

DeepSeek V3还引入了冗余专家（redundant experts）的部署策略，即复制高负载专家并冗余部署。这主要是为了在推理阶段，实现MoE不同专家之间的负载均衡。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。