PyTorch会在每次.backward()调用时会累积梯度的问题

原创

已于 2024-03-10 02:18:16 修改 · 1.4k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #人工智能 #python

于 2024-03-10 02:17:20 首次发布

本文解释了在PyTorch中如何使用`backward()`函数计算和累积梯度，强调了在每次优化前清空梯度以避免累积误差的重要性。通过实例展示了权重初始化、模型输出计算和梯度更新的过程。

代码

# backward() accumulates the gradient for this tensor into .grad attribute.
# !!! We need to be careful during optimization !!!
# Use .zero_() to empty the gradients before a new optimization step!
weights = torch.ones(4, requires_grad=True)

for epoch in range(3):
    # just a dummy example
    model_output = (weights*3).sum()
    model_output.backward()
    
    print(weights.grad)

这段代码展示了在使用PyTorch进行梯度计算和优化时的一个典型模式，包括如何累积梯度、如何在每一步优化前清空梯度，以及为何这样做是重要的。下面是对代码各部分的解释：

初始化权重

weights = torch.ones(4, requires_grad=True)

这行代码创建了一个长度为4的张量，其初始值全为1，并设置requires_grad=True。这表示weights是需要计算梯度的，即在反向传播时，PyTorch会自动计算这些权重的梯度并存储在它们的.grad属性中。

循环和模型输出

for epoch in range(3):
    # just a dummy example
    model_output = (weights*3).sum()
    model_output.backward()
    
    print(weights.grad)

这段代码表示了一个简化的训练循环，循环次数（代表“epoch”）为3。在每次循环中：

计算模型输出：通过将weights乘以3再求和得到model_output。这里的操作（乘以3和求和）仅仅是为了示例，并不代表实际模型的复杂度。
执行model_output.backward()：这个调用进行自动梯度计算，计算model_output关于所有requires_grad=True的张量（在此例中是weights）的梯度，并将计算得到的梯度累积到weights.grad属性中。
打印weights.grad：展示了当前权重的梯度。

梯度累积和清空

代码的关键点之一是PyTorch在每次.backward()调用时累积梯度。这意味着如果不手动清空梯度，那么每次调用.backward()时计算得到的梯度就会加到已有的梯度上，这通常不是我们想要的行为，因为它会导致梯度值不断增加，从而影响到优化过程。

尽管这段示例代码中没有直接展示清空梯度的操作，但在注释中提到了使用.zero_()方法来清空梯度是非常重要的一步：

# Use .zero_() to empty the gradients before a new optimization step!

在实际应用中，正确的做法是在每次优化步骤之前调用weights.grad.zero_()来清空梯度，以避免梯度累积导致的问题。这样可以确保每一步的优化都是基于最新一次前向传播计算得到的梯度。

总结

这段代码展示了在PyTorch中如何计算梯度、梯度累积的特性以及清空梯度的重要性。在实际训练模型时，适时清空梯度是保证模型正确学习的关键步骤之一。

输出：

tensor ( [3., 3., 3., 3.])
tensor ( [6., 6., 6., 6.])
tensor([9., 9., 9., 9.])

这段代码的输出展示了在三个训练周期（epoch）内，权重梯度的累积情况。由于在每次循环结束时没有清空梯度，所以得到的是梯度随着每个训练周期而逐步增加的结果。

代码回顾

代码中的关键操作是：

计算模型输出model_output = (weights*3).sum()
调用model_output.backward()来计算梯度

最低0.47元/天解锁文章