Dive-into-DL-PyTorch项目解析：PyTorch自动求梯度机制详解-优快云博客

Dive-into-DL-PyTorch项目解析：PyTorch自动求梯度机制详解

Dive-into-DL-PyTorch 本项目将《动手学深度学习》(Dive into Deep Learning)原书中的MXNet实现改为PyTorch实现。项目地址: https://gitcode.com/gh_mirrors/di/Dive-into-DL-PyTorch

前言

在深度学习中，梯度计算是模型训练的核心环节。PyTorch作为当前最流行的深度学习框架之一，其自动求梯度（Autograd）机制极大地简化了梯度计算过程。本文将深入解析PyTorch的自动求梯度原理与实现方式，帮助读者掌握这一关键技术。

自动求梯度基础概念

计算图与梯度传播

PyTorch的自动求梯度系统基于计算图（Computational Graph）实现。计算图是一种有向无环图（DAG），它记录了从输入到输出的所有计算过程。当我们在PyTorch中进行运算时，系统会自动构建这个计算图，并在反向传播时利用链式法则计算梯度。

Tensor的核心属性

在PyTorch中，Tensor类有三个与自动求梯度相关的重要属性：

requires_grad：布尔值，表示是否需要计算该Tensor的梯度
grad_fn：指向创建该Tensor的Function对象
grad：存储计算得到的梯度值

x = torch.ones(2, 2, requires_grad=True)
print(x.requires_grad)  # 输出: True
print(x.grad_fn)        # 输出: None

叶子节点与非叶子节点

在计算图中：

叶子节点：直接创建的Tensor，grad_fn为None
非叶子节点：通过运算得到的Tensor，有对应的grad_fn

y = x + 2
print(x.is_leaf)  # 输出: True
print(y.is_leaf)  # 输出: False

梯度计算实战

基本梯度计算

让我们通过一个具体例子理解梯度计算过程：

x = torch.ones(2, 2, requires_grad=True)
y = x + 2
z = y * y * 3
out = z.mean()

out.backward()
print(x.grad)

输出结果为：

tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])

这个结果的计算过程如下：

out是标量，等于所有z元素的平均值
z = 3*(x+2)^2
对x求导：∂out/∂x = 3/2*(x+2)
当x=1时，梯度值为4.5

梯度累加特性

PyTorch中的梯度是累加的，这意味着每次反向传播梯度都会叠加到之前的梯度上。因此，在实际训练中，我们通常需要在每次反向传播前清零梯度：

# 梯度累加示例
out2 = x.sum()
out2.backward()
print(x.grad)  # 梯度会累加

# 正确做法：先清零梯度
x.grad.data.zero_()
out3 = x.sum()
out3.backward()
print(x.grad)

高级应用场景

非标量梯度计算

当需要计算非标量的梯度时，我们需要提供一个权重向量进行加权求和：

x = torch.tensor([1.0, 2.0, 3.0, 4.0], requires_grad=True)
y = 2 * x
z = y.view(2, 2)

v = torch.tensor([[1.0, 0.1], [0.01, 0.001]], dtype=torch.float)
z.backward(v)
print(x.grad)

输出：

tensor([2.0000, 0.2000, 0.0200, 0.0020])

梯度追踪控制

在某些情况下，我们可能需要阻止梯度计算或修改Tensor值而不影响梯度：

使用torch.no_grad()：临时禁用梯度计算
使用detach()：从计算图中分离Tensor
操作data属性：修改Tensor值而不影响梯度

x = torch.tensor(1.0, requires_grad=True)

# 使用no_grad()阻止部分计算被追踪
with torch.no_grad():
    y2 = x ** 3  # 不会被追踪

# 修改Tensor值而不影响梯度
x.data *= 100  # 不影响梯度计算