自动微分（反向传播）的数学原理 + PyTorch 的梯度计算逻辑

最新推荐文章于 2025-12-12 15:39:25 发布

原创最新推荐文章于 2025-12-12 15:39:25 发布 · 31 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #人工智能 #python #自动微分 #梯度计算 #反向传播

部署运行你感兴趣的模型镜像

例：下列x.grad的值是如何计算的？

>>> x = torch.arange(4.0)
>>> x
tensor([0., 1., 2., 3.])
>>> x.requires_grad_(True)
tensor([0., 1., 2., 3.], requires_grad=True)
>>> x.grad
>>> y = 2 * torch.dot(x, x)
>>> y
tensor(28., grad_fn=<MulBackward0>)
>>> y.backward()
>>> x.grad
tensor([ 0.,  4.,  8., 12.])

解析：

要理解 x.grad 的计算结果，核心是自动微分（反向传播）的数学原理 + PyTorch的梯度计算逻辑，下面分步骤拆解：

步骤1：明确变量关系与数学表达式

首先梳理代码中的变量定义：

x 是张量 [0., 1., 2., 3.]，且开启了梯度追踪（requires_grad=True）；
y = 2 * torch.dot(x, x)：torch.dot(x, x) 是向量内积（点积），数学上等价于 $x_0^2 + x_1^2 + x_2^2 + x_3^2$ ，因此：
$\times (x_0^2 + x_1^2 + x_2^2 + x_3^2)$

步骤2：梯度的数学定义（偏导数）

x.grad 存储的是 y 对 x 每个元素的偏导数（ $∂y∂xi\frac{\partial y}{\partial x_i}$ ），这是反向传播的核心。

先对 $y$ 求关于 $x_i$ 的偏导数：
$\frac{\partial y}{\partial x_i} = \frac{\partial}{\partial x_i} \left[ 2 \times (x_0^2 + x_1^2 + x_2^2 + x_3^2) \right] = 2 \times 2x_i = 4x_i$

步骤3：代入x的具体值计算梯度

根据上面的偏导数公式 $∂y∂xi=4xi\frac{\partial y}{\partial x_i} = 4x_i$ ，代入 $x$ 的每个元素：

$x_i$	$∂y∂xi=4xi\frac{\partial y}{\partial x_i} = 4x_i$	对应 `x.grad` 结果
$x_0=0$	$\times 0 = 0$	0.0
$x_1=1$	$\times 1 = 4$	4.0
$x_2=2$	$\times 2 = 8$	8.0
$x_3=3$	$\times 3 = 12$	12.0

最终得到 x.grad = tensor([0., 4., 8., 12.])，和代码运行结果完全一致。

补充：PyTorch的计算逻辑验证

torch.dot(x, x) 的梯度：
点积 $\cdot x = \sum_{i=0}^3 x_i^2$ ，其对 $x_i$ 的偏导数是 $2x_i$ ；
乘以系数2后的梯度：
$\times (x \cdot x)$ ，根据导数的“常数倍法则”，梯度也会乘以2，即 $\times 2x_i = 4x_i$ ；
y.backward() 的作用：
触发反向传播，从 y 开始，沿着计算图（MulBackward0 → DotBackward）回溯，将每个 $x_i$ 的梯度计算结果存入 x.grad。