本文均基于torch实现,用于个人复习记录学习历程,适用于初学者
一个简单的例子
先创建一个简单的tensor
import torch
x = torch.arange(4.0)
print(x)
在我们计算𝑦关于𝑥的梯度之前,需要一个地方来存储梯度。重要的是,我们不会在每次对一个参数求导时都分配新的内存。 因为我们经常会成千上万次地更新相同的参数,每次都分配新的内存可能很快就会将内存耗尽。 注意,一个标量函数关于向量𝑥的梯度是向量,并且与𝑥具有相同的形状。
x.requires_grad_(True)
x.grad #输出查看,默认值为None
给出函数y
y = 2 * torch.dot(x,x)
y #输出为tensor(28., grad_fn=<MulBackward0>)
x
是一个长度为4的向量,计算x
和x
的点积,得到了我们赋值给y
的标量输出。
接下来,通过调用反向传播函数来自动计算y
关于x
每个分量的梯度,并打印这些梯度。
y.backward()
x.grad #输出tensor([ 0., 4., 8., 12.])
y.backward()是通过调用反向传播函数来自动计算y关于x的每个分量的梯度,这些梯度(也就是导数值)是存在x.grad中的
函数关于x的导数为4x,故而y关于x的梯度为tensor([ 0., 4., 8., 12.])
注意:在下一次使用反向传播求梯度时要将梯度清零,否则梯度将会持续累积
x.grad.zero_() #梯度清零