backward()函数中的参数解析

最新推荐文章于 2025-05-18 09:30:22 发布

xiangyong58

最新推荐文章于 2025-05-18 09:30:22 发布

阅读量5.7k

点赞数 9

CC 4.0 BY-SA版权

分类专栏： Machine & Deep Learning 文章标签： pytorch

本文链接：https://blog.youkuaiyun.com/xiangyong58/article/details/103787404

Machine & Deep Learning 专栏收录该内容

78 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

PyTorch的Backward()函数用于计算梯度，其参数可以是外部梯度，用于终止链式法则。雅可比矩阵在此过程中扮演关键角色，表示两个向量的偏导数。向后图在前向传播时自动创建，Backward函数不构造整个雅可比矩阵，而是直接计算Jacobian Vector Product以提高效率。向量v作为损失关于输出的梯度，与雅可比矩阵相乘得到损失关于权重的梯度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Backward()函数

Backward函数实际上是通过传递参数(默认情况下是1x1单位张量)来计算梯度的，它通过Backward图一直到每个叶节点，每个叶节点都可以从调用的根张量追溯到叶节点。然后将计算出的梯度存储在每个叶节点的.grad中。请记住，在正向传递过程中已经动态生成了后向图。backward函数仅使用已生成的图形计算梯度，并将其存储在叶节点中。

让我们分析以下代码：

 import torch
 # Creating the graph
 x = torch.tensor(1.0, requires_grad = True)
 z = x ** 3
 z.backward() #Computes the gradient
 print(x.grad.data) #Prints '3' which is dz/dx

需要注意的一件重要事情是，当调用z.backward()时，一个张量会自动传递为z.backward(torch.tensor(1.0))。torch.tensor(1.0)是用来终止链式法则梯度乘法的外部梯度。这个外部梯度作为输入传递给MulBackward函数，以进一步计算x的梯度。传递到.backward()中的