可怕！llm训练的bug，梯度累计设置过大，会导致最终loss过大。

最新推荐文章于 2025-08-01 14:04:00 发布

zenRRan

最新推荐文章于 2025-08-01 14:04:00 发布

阅读量1.1k

点赞数 21

CC 4.0 BY-SA版权

文章标签： bug

本文链接：https://blog.youkuaiyun.com/qq_27590277/article/details/143156890

知乎：车中草同学(已授权）
链接：https://zhuanlan.zhihu.com/p/1485465898

范围：该问题影响所有使用梯度累计的库，包括hf的等。（hf的人在修复中了）

10.18日更新：

感谢评论区的大佬赐教，补充下他们的观点。

@Quokka 提供了一种对描述的实验现象（梯度累积越大，最终 loss 就越大的猜测）的解释：

短序列因为上下文短，信息不足，所以不容易预测，loss 偏大（梯度累积再给他加权），于是观测到的现象就是“梯度累积 loss 偏大”。其实它是偏向了短序列的 loss，而不是往大的方向偏。

@Ethan Yan

提到之前写过一篇文章：SFT loss 计算的那些坑（多轮合并/packing）

https://zhuanlan.zhihu.com/p/721652210

解释了这种情况不只在梯度累积中发生，而且还发生在 SFT 阶段：1. 多轮对话合并 2. 不同样本的 Packing。（具体看他的文章）

一般情况下，loss 计算会经历三次平均：

micro batch 维度，分母是这个 micro batch 中的所有 label 不是 -100 的 token 数（不同 token 之间 loss 的平均）
DP 维度，分母是 DP size （和 GPU 数量相关，不同机器之间 loss 的平均）
梯度累加维度，分母是梯度累加数。（不同 batch 之间的 loss 的平均）

我们要做的就是，不要让 DP 以及梯度累积维度影响原本 token 级别等权的 loss。

因此计算完，所有的目标 token 的 loss，加和之后，再除以实际目标 token 总数，这样，在 token 维度都是等权的，不受长度影响。

10.17日更新：

Hugging Face 在 10.16 日写了篇博客介绍修复问题。

https://huggingface.co/blog/gradient_accumulation

他们的方法是：交叉熵改为 reduction=sum，再除总的实际目标 token。（他们的 loss 都在模型里面，要改无数个模型文件。。。）

def ForCausalLMLoss(logits, labels, vocab_size, **kwargs):
    # Upcast to float if we need to compute the loss to avoid potential precision issues
    logits = logits.float()
    # Shift so that tokens < n predict n
    shift_logits = logits[..., :-1, :].contiguous()
    shift_labels = labels[..., 1:].contiguous()

    # Flatten the tokens
    shift_logits = shift_logits.view(-1, vocab_size)
    shift_labels = shift_labels.view(-1)
    # Enable model parallelism
    shift_labels = shift_labels.to(shift_logits.device)

    num_items = kwargs.pop("num_items", None)
+        loss = nn.functional.cross_entropy(shift_logits, shift_labels, ignore_index=-100, reduction="sum")
+        loss = loss / num_items
-        loss = nn.functional.cross_entropy(shift_logits, shift_labels, ignore_index=-100)
    return loss

Qwen2 的计算 loss 的方式：