文章目录
论文来源: https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

本文对DeepSeek-V3的创新点和技术贡献做了一个总结,后续文章会慢慢逐步展开详解,敬请关注。
1 摘要与核心贡献
DeepSeek-V3 是由 DeepSeek-AI 团队开发的一款混合专家(Mixture-of-Experts, MoE)语言模型,总参数量达 6710 亿,每个令牌激活 370 亿参数。其核心目标是通过算法、框架与硬件的协同设计,实现 高性能、低成本训练与高效推理。以下是关键创新点:
一、架构创新
- 多头潜在注意力(MLA):通过键值(KV)缓存的低秩压缩,减少推理时的内存占用,同时保持与传统多头注意力(MHA)相当的性能
- DeepSeekMoE 架构:采用细粒度专家划分与共享专家机制,结合无辅助损失负载均衡策略,避免传统 MoE 模型中因强制负载均衡导致的性能损失。
- 多令牌预测(MTP):通过序列化预测未来多个令牌,增强模型的上下文建模能力,并支持推测解码加速推理
二、训练效率优化
- FP8 混合精度训练框架:首次在超大规模模型上验证 FP8 训练的有效性,结合分块量化与高精度累加技术,显著降低内存与计算开销。
- DualPipe 并行算法:通过计算-通信重叠与双向流水线调度,将跨节点 MoE 训练的通信开销降至接近零
- 极简内存占用设计:通过重计算、低精度存储与参数共享,实现在不依赖张量并行的情况下训练超大规模模型。
三、经济性和稳定性
- 没有训练回滚:预训练 14.8 万亿令牌仅需 266.4 万 H800 GPU 小时(总成本约 557.6 万美元),全程无不可恢复的损失尖峰或回滚
- 训练成本低:长上下文扩展(32K → 128K)与后训练(SFT + RL)合计仅消耗 12.4 万 GPU 小时
四、性能表现
- 知识领域:在 MMLU(88.5)、MMLU-Pro(75.9)、GPQA(59.1)等学术基准上超越所有开源模型,接近 GPT-4o 与 Claude-3.5-Sonnet。
- 代码与数学推理:在 HumanEval(82.6%)、LiveCodeBench(4

最低0.47元/天 解锁文章
3973

被折叠的 条评论
为什么被折叠?



