梯度累加（结合DDP）梯度检查点

最新推荐文章于 2025-05-18 14:53:37 发布

糖葫芦君

最新推荐文章于 2025-05-18 14:53:37 发布

阅读量795

点赞数 16

分类专栏： LLM 文章标签：算法人工智能大模型深度学习

本文链接：https://blog.youkuaiyun.com/yinyu19950811/article/details/145861168

版权

LLM 专栏收录该内容

13 篇文章

订阅专栏

梯度累加

目的

梯度累积是一种训练神经网络的技术，主要用于在内存有限的情况下处理较大的批量大小（batch size）。通常，较大的批量可以提高训练的稳定性和效率，但受限于GPU或TPU的内存，无法一次性加载大批量数据。

梯度累积通过多次前向传播和反向传播累积梯度，然后一次性更新模型参数，从而模拟大批量训练的效果。

总结：

显存限制：GPU/TPU显存有限，无法一次性加载大批量数据。
训练稳定性：大批量训练通常更稳定（梯度噪声更小），但需要更多显存。
资源优化：允许在低显存设备上训练更大模型或使用更大等效批量。

原理

在标准的训练过程中，每个批次（batch）的数据会进行一次前向传播计算损失，然后反向传播计算梯度，并立即更新模型参数。而梯度累积则是在多个小批次（mini-batches）上进行前向和反向传播，但不立即更新参数，而是将梯度累积起来，直到达到预设的累积步数（accumulation steps）后，才用累积的梯度更新参数。这样，等效的批量大小就是每个小批量的样本数乘以累积步数。

优点：

能够突破显存限制，允许使用更大的等效批量，提高训练效率，

缺点：

能引入的梯度噪声，因为梯度是多次小批量累积的结果，可能会影响模型收敛的稳定性。

代码

在这里插入图片描述

loss.backward是计算梯度的过程，如果不调用optimizer.zero_grad()的话，每一步的梯度不会清零。所以上述代码会进行accumulation_steps的梯度累计，所以会将loss进行归一化防止梯度过大。
optimizer.step()通过累加的梯度对网络参数进行更新。
学习率需要相应的进行适配

实践

和DDP的结合：
每个loss.backward（）都会进行多卡数据的整合计算，如果不需要进行网络更新的话，那么其实不需要进行all_reduce 操作，所以有k-1次的reduce是浪费的，以下代码实现每k步在进行网络参数更新时才进行reduce操作。
在这里插入图片描述
混合精度+梯度累加 + 梯度缩放：