# tensor的属性改为.requires_grad设置为true,它将开始追踪在其上的所有操作(这样就可以利用链式法则进行梯度传播)
# 完成计算后,可以调用.backward()来完成所有梯度计算,此Tensor的梯度将累积到.grad属性中
"""
注意:在y.backward()时,如果y是标量,则不需要为backward()传入任何参数;否则,需要传入一个与y同形的tensor
如果不想被继续追踪,可以调用.detach()将其从追踪记录中分离开来,这样就可以防止将来的计算被追踪,这样梯度就传不过去了,此外还可以
使用with torch.no_grad()将不想被追踪的操作代码块包裹起来,这种方法在评估模型的时候很常用
Function是另外一个很重要的类,tensor和function互相结合就可以构建一个记录有整个计算过程的有向无环图,每个tensor都有一个
.grad_fn()属性,该属性创建该tensor的function类,就是说该tensor是不是通过某些运算得到的,若是,则grad_fn返回一个与这些运算
相关的对象,否则为none
"""
# 创建一个tensor并设置requires_grad= True
import torch
x = torch.ones(2,2,requires_grad=True)
print(x)
"""
tensor([[1., 1.],
[1., 1.]], requires_grad=True)
"""
print(x.grad_fn) # None
# 再做些运算得到
y = x + 2
print(y)
"""
tensor([[3., 3.],
[3., 3.]], grad_fn=<AddBackward0>)
"""
print(y.grad_fn) # <AddBackward0 object at 0x000001EEC0110BA8>
# 注意:x是直接创建的,所以它没有grad_fn,y是通过一个加法操作所创建的,所以它有一个grad_fn
# 像x这种直接创建的称为叶子节点,叶子节点对应的grad_fn是None
print(x.is_leaf,y.is_leaf) # True False
# 再来点复杂的操作
z = y * y * 3
out = z.mean()
print(z,out)
"""
tensor([[27., 27.],
[27., 27.]], grad_fn=<MulBackward0>) tensor(27., grad_fn=<MeanBackward0>)
"""
# 通过.requires_grad_()来用in-place的方式改变requires_grad属性
a = torch.randn(2,2) # 默认requires_grad= False
a = ((a * 3) / (a - 1))
print(a.requires_grad) # False
a.requires_grad_(True)
print(a.requires_grad) # True
b = (a * a).sum()
print(b.grad_fn) # <SumBackward0 object at 0x000001AAA624D240>
# 梯度
# 因为out是一个标量,值为27,所以调用backward()时不需要指定求导变量
out.backward() # 等价于out.backward(torch.tensor(1.))
print(x.grad)
"""
tensor([[4.5000, 4.5000],
[4.5000, 4.5000]])
"""
"""
例如:假设y由自变量x计算而来,w和y是同形的张量,则y.backward(w)的含义是:先计算1 = torch.sum(y * w),则1是一个标量,然后求1
对自变量x的导数
"""
x = torch.tensor([1.0,2.0,3.0,4.0],requires_grad=True)
y = 2 * x
z = y.view(2,2)
print(z)
print(y)
"""
tensor([[2., 4.],
[6., 8.]])
"""
# 现在y不是一个标量,所以在调用backward时需要传入一个和y同形的权重向量进行加权求和得到一个标量
v = torch.tensor([[1.0,0.1],[0.01,0.001]],dtype=torch.float)
z.backward(v)
print(x.grad) # tensor([2.0000, 0.2000, 0.0200, 0.0020])
# 注意:grad在反向传播的过程中是累加的,这意味着每一次运行着反向传播梯度都会累加之前的梯度,所以一般在反向传播之前需要把梯度
# 清零
# out2 = x.sum()
# out2.backward()
# print(x.grad)
"""
tensor([[5.5000, 5.5000],
[5.5000, 5.5000]])
"""
# out3 = x.sum()
# x.grad.data.zero_()
# out3.backward()
# print(x.grad)
"""
tensor([[1., 1.],
[1., 1.]])
"""
# 梯度中断
x = torch.tensor(1.0,requires_grad=True)
y1 = x ** 2
with torch.no_grad():
y2 = x ** 3
y3 = y1 + y2
print(x.requires_grad) # True
print(y1,y1.requires_grad) # tensor(1., grad_fn=<PowBackward0>) True
print(y2,y2.requires_grad) # tensor(1.) False
print(y3,y3.requires_grad) # tensor(2., grad_fn=<AddBackward0>) True
y3.backward()
print(x.grad) # tensor(2.),这里等于2是因为y2不能求导
# 如果我们想要修改tensor的数值,但是又不希望autograd记录,我们可以对tensor.data进行操作
x = torch.ones(1,requires_grad=True)
print(x.data) # 还是一个tensor ,tensor([1.])
print(x.data.requires_grad) # 但是已经独立于计算图之外,False
y = 2 * x
x.data *= 100
y.backward()
print(x) # 更改data的值也会影响tensor的值 # tensor([100.], requires_grad=True)
print(x.grad) # tensor([2.])
动手学习深度学习-梯度
最新推荐文章于 2025-09-08 19:22:19 发布
本文深入探讨了PyTorch中自动求导机制的工作原理,包括tensor属性的设置与追踪、反向传播的实现及梯度计算,同时介绍了如何在特定场景下中断梯度追踪,对于理解深度学习模型训练过程具有重要价值。
部署运行你感兴趣的模型镜像
您可能感兴趣的与本文相关的镜像
PyTorch 2.5
PyTorch
Cuda
PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

793

被折叠的 条评论
为什么被折叠?



