Pytorch自动求梯度详解

本文详细介绍了PyTorch中如何进行自动求梯度和反向传播的过程,包括创建Tensor、设置requires_grad属性、计算图的建立、反向传播计算梯度以及清零梯度的操作。此外,还展示了中断梯度追踪的例子,以及在实际运算中如何应用这些概念。

自动求梯度

Tensor

import torch
import numpy as np

创建一个Tensor,并设置requires_grad=True

x=torch.ones(2,2,requires_grad=True)
print(x)
print(x.grad_fn)
tensor([[1., 1.],
        [1., 1.]], requires_grad=True)
None
y=x+2
print(y)
print(y.grad_fn)
tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)
<AddBackward0 object at 0x000002B8D5235E88>
print(x.is_leaf,y.is_leaf)
True False
z=y*y*3
out=z.mean()
print(z,out)
tensor([[27., 27.],
        [27., 27.]], grad_fn=<MulBackward0>) tensor(27., grad_fn=<MeanBackward0>)

通过.requires_grad_()来用in-place的方式改变requires_grad属性:

a=torch.randn(2,2)# 缺失情况下默认 requires_grad=False
a=((a*3)/(a-1))
print(a.requires_grad)

a.requires_grad_(True)
print(a.requires_grad)

b=(a*a).sum()
print(b.grad_fn)
False
True
<SumBackward0 object at 0x000002B8E09AC188>

梯度

out.backward() #等价于out.backward(torch.tensor(1.))
None

out关于x的梯度

print(x.grad)
tensor([[13.5000, 13.5000],
        [13.5000, 13.5000]])

梯度会累加,因此每次反向传播前应该将梯度清零

out2=x.sum()
out2.backward()
print(x.grad)

out3=x.sum()
x.grad.data.zero_()
out3.backward()
print(x.grad)
tensor([[15.5000, 15.5000],
        [15.5000, 15.5000]])
tensor([[1., 1.],
        [1., 1.]])

示例:

x=torch.tensor([1.0,2.0,3.0,4.0],requires_grad=True)
y=2*x
z=y.view(2,2)
print(z)
tensor([[2., 4.],
        [6., 8.]], grad_fn=<ViewBackward>)
v=torch.tensor([[1.0,0.1],[0.01,0.001]],dtype=torch.float)
z.backward(v)
print(x.grad)
tensor([2.0000, 0.2000, 0.0200, 0.0020])

中断梯度追踪的例子

x=torch.tensor(1.0,requires_grad=True)
y1=x**2
with torch.no_grad(): # y2被no_grad包裹,y2梯度不会回传
    y2=x**2
y3=y1+y2

print(x.requires_grad)
print(y1.requires_grad)
print(y2.requires_grad)
print(y3.requires_grad)
True
True
False
True
y3.backward()
print(x.grad)
tensor(2.)
x=torch.ones(1,requires_grad=True)

print(x.data)
print(x.data.requires_grad)

y=2*x
x.data*=100

y.backward()
print(x)
print(x.grad)
tensor([1.])
False
tensor([100.], requires_grad=True)
tensor([2.])

<think>嗯,用户让我详细解释一下PyTorch中的backward()自动导机制。好,我得先理清楚自动导的基本概念,然后具体到backward()函数的使用方法,还有相关的注意事项。可能需要从计算图开始讲起,因为PyTorch的动态计算图是自动导的基础。 首先,用户可能已经知道张量和autograd的关系,但需要确认。比如,torch.Tensor的requires_grad属性,当设置为True时,PyTorch会跟踪在该张量上的所有操作。然后,每个操作都会生成一个计算图中的节点,这样在反向传播时就能沿着这些节点计算梯度。 接下来,backward()函数的作用是自动计算梯度。这里可能需要解释梯度是如何累积的,尤其是当张量是标量时,可以直接调用backward(),但如果是非标量,就需要传入一个梯度参数,比如gradient参数。这里容易出错,用户可能会遇到需要匹配形状的问题,或者理解为什么非标量需要这样的处理。 然后,关于梯度累积的问题。PyTorch默认会累积梯度,所以在训练循环中需要手动调用zero_grad()来清除之前的梯度。这一点很重要,用户如果在训练时忘记清零梯度,会导致梯度值不断累积,影响模型训练效果。可能需要举例说明,比如多次backward()调用而没有清零的情况。 另外,控制梯度跟踪的上下文管理器,比如torch.no_grad(),在推理阶段或者不需要计算梯度时使用,可以节省内存和计算资源。detach()方法也是类似的,用于从计算图中分离张量,避免不必要的梯度计算。 可能还需要提到张量的grad_fn属性,它记录了创建该张量的操作,这样在反向传播时就能根据这些函数链式调用计算梯度。这部分对于理解计算图的结构有帮助,但用户可能需要具体的例子才能更好地理解。 另外,高阶导数的情况,即对梯度再次导,这时候需要在backward()中设置create_graph=True。这在某些优化算法或者二阶导数的计算中会用到,但一般用户可能不太常用,不过还是需要简要说明。 用户可能的疑问点包括:什么时候需要传入gradient参数到backward(),为什么有时候不调用zero_grad()会导致错误,如何正确使用no_grad()来避免内存泄漏,以及如何处理非标量张量的梯度计算。这些都需要在回答中详细解释,并给出示例代码,帮助用户更好地理解。 另外,需要注意中文回答的结构要清晰,分步骤讲解,可能分为基本概念、计算图、backward()的工作机制、梯度累积、控制梯度跟踪等几个部分。每个部分用例子和代码片段来说明,这样用户更容易跟进。 最后,可能还需要提醒一些常见错误,比如在需要梯度的地方没有设置requires_grad,或者在不需要的地方错误地保留了梯度,导致计算资源浪费。此外,解释如何查看梯度,即通过Tensor的grad属性,以及梯度清零的重要性。 总结一下,回答的结构应该是: 1. 自动导机制的基本概念:张量、requires_grad、计算图。 2. backward()函数的使用方法,包括标量和非标量的情况。 3. 梯度累积和zero_grad()的作用。 4. 控制梯度跟踪的方法:no_grad()和detach()。 5. 示例代码演示不同情况下的使用。 6. 常见问题及注意事项。 需要确保每个部分都有足够的细节,同时避免过于冗长。使用代码示例时,要说明每一行的作用,特别是涉及关键函数的地方。比如,创建张量时设置requires_grad=True,执行前向计算,然后调用backward(),最后访问梯度值。 现在,检查是否有遗漏的点。比如,是否需要解释叶子节点和非叶子节点的区别?可能对于高级用户来说,叶子节点的梯度累积和中间节点的梯度是否被保留的问题也需要提及,但如果是基础介绍,可能暂时不需要深入。不过,在梯度累积的部分,可以提到梯度是累加在叶子节点的grad属性中的,所以需要清零。 另外,是否需要讨论retain_graph参数的作用?当多次执行反向传播时,默认会释放计算图,如果需要保留,可以设置retain_graph=True。这可能在某些情况下用到,但可能属于进阶内容,根据用户的问题深度决定是否包含。根据用户的问题描述,他们可能希望得到详细的机制解释,所以可以简要提及。 最后,确保所有数学公式按照要使用$$...$$格式,行内公式用$...$,并且语法正确。比如,在解释链式法则时,可能需要用数学表达式,但根据用户的问题,可能不需要太多数学,但如果有的话,要正确格式化。</think>以下是对PyTorch自动导机制中`backward()`函数的详细分步解释: --- ### **一、自动导基础** PyTorch通过`autograd`模块实现自动导,核心是**动态计算图**和**梯度反向传播**: 1. **张量与梯度跟踪** 将张量 `x` 的 `requires_grad` 设为 `True`,PyTorch会跟踪其所有运算: ```python x = torch.tensor([2.0], requires_grad=True) ``` 2. **计算图构建** 每次对张量的操作(如加减乘除)会生成一个新张量,并记录操作类型(通过 `grad_fn` 属性): ```python y = x**2 + 3*x # y的grad_fn指向AddBackward节点 ``` --- ### **二、反向传播:`backward()` 工作机制** #### **1. 标量张量的反向传播** 若最终结果是标量(如损失值),直接调用`backward()`: ```python y.backward() # 自动计算梯度 print(x.grad) # 输出梯度值:dy/dx = 2x + 3 → 2*2 + 3 = 7.0 ``` #### **2. 非标量张量的反向传播** 若结果是多维张量,需传入与结果形状相同的`gradient`参数,表示各元素的权重: ```python x = torch.tensor([1.0, 2.0], requires_grad=True) y = x ** 2 # y = [1, 4] # 假设梯度权重为[1.0, 1.0] y.backward(gradient=torch.tensor([1.0, 1.0])) print(x.grad) # 输出梯度值:dy/dx = 2x → [2.0, 4.0] ``` #### **3. 梯度累积** 梯度会**累加**到叶子节点的`.grad`属性中,训练时需手动清零: ```python optimizer.zero_grad() # 清除历史梯度 loss.backward() # 计算新梯度 optimizer.step() # 更新参数 ``` --- ### **三、控制梯度跟踪** #### **1. 停止跟踪:`no_grad()`** 在推理或冻结参数时使用,节省内存: ```python with torch.no_grad(): y = x * 2 # 此操作不记录计算图 ``` #### **2. 分离张量:`detach()`** 从计算图中分离张量,阻止梯度传递: ```python y = x.detach() # y的requires_grad=False z = y ** 2 # 后续操作不参与梯度计算 ``` --- ### **四、高阶导数** 通过`create_graph=True`保留计算图,支持多次导: ```python x = torch.tensor(3.0, requires_grad=True) y = x**2 dy_dx = torch.autograd.grad(y, x, create_graph=True)[0] # dy/dx=6.0 d2y_dx2 = torch.autograd.grad(dy_dx, x)[0] # d²y/dx²=6.0 ``` --- ### **五、关键注意事项** 1. **梯度访问** 只有叶子节点(用户直接创建的张量)的梯度会存储在`.grad`中,中间节点的梯度默认被释放。 2. **内存管理** 默认每次`backward()`后释放计算图,若需多次反向传播,设置`retain_graph=True`: ```python loss.backward(retain_graph=True) ``` 3. **性能优化** 避免不必要的梯度跟踪(如数据预处理时),以提升速度和减少内存占用。 --- ### **六、完整示例** ```python # 定义计算图 x = torch.tensor(2.0, requires_grad=True) y = x**3 + 2*x # 反向传播 y.backward() print(f"dy/dx = {x.grad}") # 3x² + 2 → 3*(2)^2 + 2 = 14.0 # 清零梯度 x.grad.zero_() ``` --- ### **总结** - `backward()` 通过动态计算图自动计算梯度,是神经网络训练的核心。 - 标量直接调用`backward()`,非标量需指定`gradient`参数。 - 梯度累积特性要手动调用`zero_grad()`。 - 使用`no_grad()`或`detach()`控制梯度跟踪范围。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值