1. 模型架构创新
混合专家(MoE)设计
总参数量 671B,每个 token 激活 37B 参数,平衡性能与计算效率。
采用 DeepSeek的MoE架构,支持细粒度专家分布与共享专家隔离,优化训练成本。
多注意力头潜在注意力(MLA)
通过低秩压缩键值(KV)缓存,减少推理时的显存占用,同时保持性能。
无辅助损失负载均衡
动态调整专家偏置,避免传统辅助损失对模型性能的负面影响,提升训练稳定性。
多token预测(MTP)
每个位置预测多个未来 token,增强数据效率与推理规划能力,支持推测解码加速生成。
2. 训练优化与基础设施
高效训练框架
DualPipe 流水线并行:减少流水线气泡,通过计算-通信重叠优化跨节点专家并行通信。
FP8 混合精度训练:首次验证超大规模模型 FP8 训练可行性,降低显存占用并加速计算。
极简显存优化:通过重计算 RMSNorm、低精度存储(如 BF16 优化器状态)减少显存消耗。
通信优化
定制跨节点全对全通信内核,充分利用 InfiniBand 与 NVLink 带宽,实现近零通信开销。
节点限制路由策略,限制 token 最多分发至 4 个节点,降低网络流量。
3. 预训练与长上下文扩展
数据构建
使用 14.8T token多语言高质量语料,强化数学与代码数据比例,支持中英文及多语言任务。
引入 Fill-in-Middle(FIM) 策略,提升代码补全能力。
训练稳定性
全程无不可恢复的损失尖峰或回滚,训练成本仅 2664K H800 GPU 小时(约 2.7M 美元)。
长上下文支持
通过两阶段扩展(4K → 32K → 128K),结合 YaRN 位置编码,支持 128K 上下文窗口,在 "Needle In A Haystack" 测试中表现优异。
4. 后训练与对齐
监督微调(SFT)
融合 DeepSeek-R1 长链思维(CoT)模型的推理能力,平衡输出简洁性与准确性。
构建 150 万条多领域指令数据,涵盖数学、代码、创意写作等。
强化学习(RL)
采用Group Relative Policy Optimization(GRPO),结合规则与模型奖励,提升对齐效果。
支持自奖励机制,利用模型自身投票反馈优化生成质量。
5. 性能评估
基准测试优势
知识任务:MMLU(88.5)、MMLU-Pro(75.9)、GPQA(59.1)领先开源模型,接近 GPT-4o。
代码与数学:HumanEval(82.6%)、LiveCodeBench(40.5%)、MATH-500(90.2%)创开源模型新高。
中文任务:C-Eval(90.1)、C-SimpleQA(64.8)显著优于同类模型。
长上下文与开放性评估
在 LongBench v2、Arena-Hard 等测试中优于 Claude-3.5-Sonnet,解码速度提升 1.8 倍。
6. 经济性与未来方向
低成本训练
总训练成本仅2.788M H800 GPU 小时(约 557.6 万美元),效率远超同类密集模型。
局限性
部署单元较大(预填充需 32 GPU,解码需 320 GPU),对小型团队不友好。
未来计划
支持无限上下文、突破 Transformer 架构限制、提升深度推理能力,探索多维度评估方法。
总结
DeepSeek-V3 通过架构创新(MoE+MLA)、训练优化(FP8、DualPipe)、数据策略(多语言、长上下文)与高效后训练(知识蒸馏、自奖励),在性能上媲美顶尖闭源模型(如 GPT-4o),同时保持极低训练成本,成为当前最强的开源语言模型之一。其核心优势在于 “高性能、高性价比、多领域泛化能力”,为 AGI 研究提供了重要开源基础设施。
当我用ds,对它说请说人话时,它给了一个有趣通俗的对于deepseek本身的介绍。
DeepSeek-V3 是个超强的AI大脑
1. 它为啥厉害?
分工合作:它用了6710亿个参数(但每次只用其中370亿),像一群小专家分工干活,又快又省电。
记忆力好:处理超长文本(比如一本小说)也不掉链子,还能精准找到关键信息。
数学和编程贼强:解奥数题、写代码比大部分AI都牛,接近GPT-4的水平。
中文特别溜:做中文考试题、回答事实问题,比国内其他AI更靠谱。
2. 怎么做到这么牛的?
训练省钱:用了个叫 **FP8** 的黑科技,训练成本只要500多万美元(对比:GPT-4训练要上亿美元)。
不卡顿:全程训练稳如老狗,没出过大bug(不像有些AI练着练着就崩了)。
学得快:看了14.8万亿字的资料(相当于把全人类的书读了好几遍),重点学了数学和编程。
3. 实际用起来怎么样?
写代码:能直接生成能跑的代码,比赛级编程题也能搞定。
考试高手:英语考试(比如托福阅读)、中文考试(比如高考题)成绩接近人类学霸。
唠嗑也行:聊天时能扯超长内容(比如分析一篇论文),还能玩角色扮演。
4. 缺点和未来计划
缺点:现在需要很多显卡才能用(最少32块),普通人暂时玩不起。
未来:想支持无限长文本(比如整本《三体》),还要变得更聪明,目标是追上甚至超过GPT-5。
5.一句话总结
这是一个中国团队搞的超级AI,能力直逼GPT-4,数学编程贼强,中文特溜,关键是训练成本超低!虽然现在用起来门槛高,但未来可能会开放给更多人用。
其实我个人认为自己读到过的对于deepseek最贴切的比喻是ds其实像是一个聪明的下属。
后续会再发一篇deepseek技术报告的全文翻译,还会再发一篇deepseek的使用技巧,包括提问技巧和要避免的东西,敬请期待!