理论学习：optimizer.zero_grad() loss.backward() optimizer.step()

最新推荐文章于 2025-09-10 12:07:57 发布

原创最新推荐文章于 2025-09-10 12:07:57 发布 · 721 阅读

CC 4.0 BY-SA版权

文章标签：

11 篇文章

订阅专栏

本文介绍了PyTorch中训练神经网络的基本流程，包括清零累积梯度的optimizer.zero_grad()，计算梯度的loss.backward()，以及利用梯度更新参数的optimizer.step()。重点讲述了这三个步骤在模型训练中的作用和它们之间的关系。

部署运行你感兴趣的模型镜像

optimizer.zero_grad():
在开始一个新的迭代之前，需要清零累积的梯度。这是因为默认情况下，PyTorch在调用.backward()进行梯度计算时会累积梯度，而不是替换掉旧的梯度。如果不手动清零，那么梯度会从多个迭代中累积起来，导致错误的参数更新。optimizer.zero_grad()正是用来清除过往的梯度信息，确保每次迭代的梯度计算都是基于当前迭代的数据。
loss.backward():
这一步是进行梯度计算的关键。loss.backward()根据损失函数的值计算每个参数的梯度，并将这些梯度存储在参数的.grad属性中。这个过程是通过反向传播算法实现的，它从损失函数开始，逆向通过网络，根据链式法则计算每个参数对于损失函数的梯度。
optimizer.step():
最后一步是使用前两步计算得到的梯度来更新模型的参数。optimizer.step()会根据存储在参数.grad属性中的梯度值，以及优化器中定义的学习率等超参数，更新每个参数的值。这一步是实现模型学习和参数优化的核心。