10,PyTorch 张量的 requires_grad 属性-优快云博客

在这里插入图片描述

10. PyTorch 张量的 `requires_grad` 属性

在 PyTorch 中，requires_grad 属性是张量（Tensor）的一个重要特性，它决定了张量是否参与自动求导机制。这一属性在构建计算图和实现自动求导过程中起着关键作用。本节将详细介绍 requires_grad 属性的作用、使用方法以及相关注意事项。

10.1 `requires_grad` 属性的作用

requires_grad 是一个布尔类型的属性，用于指示 PyTorch 是否需要对张量进行梯度跟踪。当我们将一个张量的 requires_grad 设置为 True 时，PyTorch 会在后续对该张量的所有操作中自动构建计算图，并记录所有相关的操作和依赖关系。这使得我们可以在执行反向传播时，通过计算图自动计算出该张量的梯度。

例如，假设我们有一个简单的计算过程 ( y = (x + 2)^2 )，其中 ( x ) 是一个输入张量。如果我们将 ( x ) 的 requires_grad 设置为 True，那么 PyTorch 会自动跟踪 ( x ) 的所有操作，并构建计算图。当我们调用 y.backward() 时，PyTorch 会根据计算图自动计算出 ( x ) 的梯度。

import torch

# 定义输入张量，并设置 requires_grad=True
x = torch.tensor(2.0, requires_grad=True)

# 定义计算过程
y = (x + 2) ** 2

# 反向传播
y.backward()

# 查看梯度
print("x 的梯度：", x.grad)

在上述代码中，x 的 requires_grad 属性被设置为 True，因此 PyTorch 会自动跟踪 ( x ) 的所有操作，并在反向传播时计算出 ( x ) 的梯度。

10.2 `requires_grad` 属性的使用方法

10.2.1 设置 `requires_grad`

在 PyTorch 中，可以通过以下几种方式设置张量的 requires_grad 属性：

在创建张量时设置
在创建张量时，可以通过 requires_grad 参数直接设置该属性。例如：
```
x = torch.tensor(2.0, requires_grad=True)
```
这种方式在创建张量时直接指定是否需要梯度跟踪，是最常用的方法之一。
修改已创建张量的 requires_grad 属性
如果张量已经创建，可以通过修改其 requires_grad 属性来启用或禁用梯度跟踪。例如：
```
x = torch.tensor(2.0)
x.requires_grad_(True)  # 启用梯度跟踪
```
这里使用了 requires_grad_() 方法，它是一个原地操作（in-place operation），会直接修改张量的 requires_grad 属性。
使用 torch.no_grad() 上下文管理器
在某些情况下，我们可能希望暂时禁用梯度跟踪，以节省内存或提高计算效率。可以使用 torch.no_grad() 上下文管理器来实现这一点。例如：
```
x = torch.tensor(2.0, requires_grad=True)

with torch.no_grad():
    y = (x + 2) ** 2
```
在 torch.no_grad() 上下文管理器的作用范围内，所有张量的梯度跟踪都会被禁用，即使这些张量的 requires_grad 属性为 True。

10.2.2 检查 `requires_grad` 属性

可以通过访问张量的 requires_grad 属性来检查其是否参与梯度跟踪。例如：

x = torch.tensor(2.0, requires_grad=True)
print("x 的 requires_grad 属性：", x.requires_grad)

输出结果为：

x 的 requires_grad 属性： True

10.3 `requires_grad` 属性的注意事项

10.3.1 内存占用

当张量的 requires_grad 属性为 True 时，PyTorch 会自动跟踪该张量的所有操作，并存储相关的中间结果和梯度信息。这可能会导致内存占用增加，特别是在处理大规模数据时。因此，在实际应用中，需要注意内存的使用情况，避免不必要的内存浪费。

如果某些张量不需要参与梯度计算，可以将其 requires_grad 属性设置为 False，以减少内存占用。例如：

x = torch.tensor(2.0, requires_grad=True)
y = torch.tensor(3.0, requires_grad=False)

在上述代码中，y 的 requires_grad 属性被设置为 False，因此 PyTorch 不会跟踪 y 的操作，从而节省内存。

10.3.2 梯度计算

只有当张量的 requires_grad 属性为 True 时，PyTorch 才会为其计算梯度。如果张量的 requires_grad 属性为 False，则不会为其计算梯度。

此外，在反向传播时，只有参与计算图的张量才会计算梯度。如果某个张量的 requires_grad 属性为 True，但该张量没有参与计算图的构建，则也不会为其计算梯度。

例如：

x = torch.tensor(2.0, requires_grad=True)
y = x + 2
y = y.detach()  # 将 y 从计算图中分离
y = y ** 2
y.backward()
print("x 的梯度：", x.grad)

在上述代码中，y 被从计算图中分离（通过 y.detach()），因此在反向传播时不会为 x 计算梯度。输出结果为：

x 的梯度： None

10.3.3 与 `torch.no_grad()` 的配合使用

torch.no_grad() 上下文管理器可以暂时禁用梯度跟踪，这在某些情况下非常有用。例如，在推理阶段，我们通常不需要计算梯度，因此可以使用 torch.no_grad() 来节省内存和提高计算效率。

model = torch.nn.Linear(10, 1)
x = torch.randn(1, 10)

# 推理阶段
with torch.no_grad():
    output = model(x)

在上述代码中，torch.no_grad() 上下文管理器的作用范围内，所有张量的梯度跟踪都被禁用，从而节省了内存和计算资源。

10.4 总结

本节详细介绍了 PyTorch 中张量的 requires_grad 属性的作用、使用方法以及相关注意事项。requires_grad 属性是 PyTorch 自动求导机制的核心，它决定了张量是否参与梯度计算。通过合理设置 requires_grad 属性，可以有效控制内存占用，并优化计算效率。掌握 requires_grad 属性的使用方法和注意事项，将有助于我们更好地利用 PyTorch 构建和优化深度学习模型。
更多技术文章见公众号: 大城市小农民