对pytorch中optimizer.zero_grad()理解

IT_BOY__

于 2020-05-25 08:39:46 发布

阅读量2.5k

点赞数

CC 4.0 BY-SA版权

分类专栏： pytorch 文章标签：深度学习 pytorch zero_grad

本文链接：https://blog.youkuaiyun.com/IT_BOY__/article/details/106278537

pytorch 专栏收录该内容

4 篇文章

订阅专栏

本文探讨了在PyTorch中为何要在每个epoch开始前将梯度清零。这是因为如果不重置梯度，loss.backward()会累加之前的梯度，导致计算不准确。通过清零梯度，确保每次迭代的梯度都是从零开始计算，维持了训练过程的准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

刚接触pytorch不久，就遇到这种问题，既然要计算梯度（pytorch用loss.backward()计算各参数的梯度loss.grad），那为什么要先将上个epoch的梯度重置为0再去计算呢？其主要原因是:

在torch.autograd中，上个epoch计算Variable中的grad成员也会自动变成Variable，也就是说，Variable变多了，但是这些Variable是不需要的，所以将其重置为0，让它不起作用。这样的话，下一次求的梯度就是之前Variable对应的梯度了。

官方解释：
We then set the gradients to zero, so that we are ready for the next loop. Otherwise, our gradients would record a running tally of all the operations that had happened (i.e. loss.backward() adds the gradients to whatever is already stored, rather than replacing them).

参考：
https://pytorch.org/tutorials/beginner/nn_tutorial.html