论文原文地址:https://arxiv.org/pdf/2412.19437
本文主要是在DeepSeek-V2的基础上介绍改进点,相同部分不做过多介绍,对于DeepSeek-V2不了解的可以先看看我上一篇对于DeepSeek-V2的解读:《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》阅读解析-优快云博客
创新点
(1)与DeepSeek-V2不同,提出auxiliary-loss-free strategy for load balancing,从而最大程度地减少了由于寻找负载平衡而产生的性能下降。
(2)研究了Multi-Token Prediction (MTP),提升了模型的性能并且加快了模型推理的解码。
(3)克服了跨节点MOE训练中的通信瓶颈
(4)蒸馏来自DeepSeek R1系列的能力
摘要
提出了DeepSeek-V3 ,与V2一样采用MLA以及DeepSeekMoE架构,一个具有671B总参数的巨大模型,每个token都激活37B。提出auxiliary-loss-free strategy for load balancing,从而最大程度地减少了由于寻找负载平衡而产生的性能下降,研究了Multi-Token Prediction (MTP),提升了模型的性能并且加快了模型推理的解码

最低0.47元/天 解锁文章
1111

被折叠的 条评论
为什么被折叠?



