DeepSeek-V3

最新推荐文章于 2025-04-10 21:55:30 发布

大模型研究院

最新推荐文章于 2025-04-10 21:55:30 发布

阅读量320

点赞数 7

文章标签：人工智能 html 深度学习语言模型前端大模型 deepseek

本文链接：https://blog.youkuaiyun.com/l01011_/article/details/146899103

版权

DeepSeek-V3是一款2024年12月提出的混合专家(MoE)语言模型，整体参数规模达到 671B，其中每个token激活的参数量为37B。在性能上超越了同期其他开源模型，并能够与主流闭源模型相媲美。

1、思路：

DeepSeek-V3采用了多头潜在注意力(Multi-head Latent Attention, MLA)和DeepSeek-MoE架构。
MTP：设定了多token预测训练目标以增强性能。
在14.8万亿高质量且多样化的token上进行了预训练，随后经过监督微调和强化学习阶段，充分发挥LLM能力。

2、技术：

MLA: Multi-head Latent Attention

通过将kv cache压缩到隐向量(latent vector) 实现推理加速。压缩后到k v 可以通过等效运算还原回原始kv，（数学上等效，模型直接学融合变换矩阵）
kv压缩后不能直接用RoPE, 因此新造一个向量单独做相对位置编码。

MOE:Mixture of Experts

共享专家：保持激活，学习通用知识；
路由专家：激活部分，256个专家ffn分8组，选出最优的4组，再选出的8组中再选择最优的8个路由专家
负载均衡：系统实时监控每个训练步骤中所有批次的专家负载分布。为每个专家引入一个偏置项，并将其添加到亲和力得分中。偏置项仅用于路由选择，对于负载过高的专家，其偏置项会减少，降低该专家被选中的概率；对于负载不足的专家，其偏置项会增加，提高该专家被选中的概率。负载均衡策略主要目标是实现专家负载的均衡分布，而并非主动让每个专家负责特定领域的知识。

MTP：Multi-Token Prediction

多token预测，加速&优化训练效果，推理时可不用。（有点辅助loss的效果）

GRPO：Group Relative Policy Optimization

优化强化学习范式，统一范式，简化了PPO(Proximal Policy Optimization Reinforcement Learning)

Al Infra：

计算集群：配备2048个NVIDIA H800 GPU的集群，集群中的每个节点都包含8个GPU，通过节点内的NVLink和NVSwitch连接。
训练框架：应用了跨越8个节点的16路流水线并行(PP)、64路专家并行(EP)和ZeRO-1数据并行(DP）。采用创新的双向流水线调度策略(DualPipe)，实现了从流水线两端同时输入微批次数据，使得大部分通信过程能够与计算过程完全重叠。

FP8训练：利用FP8数据格式训练DeepSeek-V3的细粒度混合精度框架。

量化和乘法精度优化：基于混合精度FP8框架，提出了一种细粒度量化方法，在更细粒度的级别上应用缩放精细量化。

特点：

性能优秀：DeepSeek-V3在多个基准测试中超越了其他开源模型，与领先的闭源模型相当。
训练成本较低：完整训练仅需要2.788M H800 GPU小时，训练成本相对较低。
FP8 混合精度训练：在极大规模模型上验证了FP8训练的有效性，通过支持FP8计算和存储，实现加速训练和减少 GPU显存占用。

总之，DeepSeek-V3大规模混合专家语言模型，在延续MLA和DeepSeekMoE架构优势的基础上，创新性地提出了无辅助损失负载均衡策略，并引入多token预测训练目标以提升性能。通过采用FP8训练技术和精细的工程优化，模型实现了高效的训练过程。在后训练阶段，又成功将DeepSeek-R1系列模型的推理能力迁移至新模型。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】