DeepSeek V3 并行训练、推理优化点(一)

原创已于 2025-03-11 20:16:16 修改 · 1.6k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#DeepSeek

于 2025-03-10 21:17:24 首次发布

部署运行你感兴趣的模型镜像

训练优化1， FP8计算

DeepSeek-V3在训练过程中统一使用E4M3格式，并通过细粒度的per-tile（1x128）和per-group（128x128）量化来降低误差。

FP8的好处还体现在节省显存上（尤其是激活值）。此外，DeepSeek-V3使用BF16来保存优化器状态，以及对部分操作进行选择性重计算（例如RMSNorm, MLA Up-Proj, SwiGLU）。

优化点2 模型结构

MOE+MLA

训练优化3 DeepSeekV3 数据并行+专家并行（DP+EP）

DeepSeek-V3使用64路的专家并行，16路的流水线并行，以及数据并行（ZeRO1）。
我们再来回顾一下Zero1：对优化器的状态进行分片
Zero2: 对优化器状态+梯度进行分片
Zero3: 对优化器状态+梯度+参数进行分片
对于LLama-7B模型来说：
模型参数占用的显存：14GB
优化器状态占用的显存：84GB
因为使用float32存储，防止下溢，所以m，v，w = 1423 = 84GB
梯度占用的显存：14GB
这里的优化器状态占用的显存是很大的，所以需要开启Zero1

大规模跨节点专家并行：Expert Parallelism / EP
EP 使得 batch size 大大增加，从而提高 GPU 矩阵乘法的效率，提高吞吐。其次 EP 使得专家分散在不同的 GPU 上，每个 GPU 只需要计算很少的专家（因此更少的访存需求），从而降低延迟。

专家并行会引入all2all通信，由于每个token会激活8个专家，这导致跨节点的all2all通信开销成为主要的系统瓶颈。

在算法层面，DeepSeek-V3使用分组路由的方式，限制每个token只会激活4个节点上的专家，从而减半跨节点的通信流量。在系统层面，将节点间通信和节点内通信进行流水，最大化使用网络带宽和NVLink带宽。

多机多卡的专家并行，会带来通信开销，所以采取双batch隐藏通信开销。
在这里插入图片描述
黄色的前向计算，绿色的后向计算。