pytorch 梯度none_[PyTorch 学习笔记] 1.5 autograd 与逻辑回归

最新推荐文章于 2023-11-18 17:08:23 发布

原创

最新推荐文章于 2023-11-18 17:08:23 发布 · 671 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch 梯度none

本文介绍了PyTorch中的自动求导机制，包括torch.autograd.backward()和torch.autograd.grad()的使用，以及在逻辑回归中的应用。重点讨论了retain_graph参数、grad_tensors参数以及梯度清零的重要性，并提供了逻辑回归的PyTorch实现示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本章代码：

https://github.com/zhangxiann/PyTorch_Practice/blob/master/lesson1/autograd.py
https://github.com/zhangxiann/PyTorch_Practice/blob/master/lesson1/logistic-regression.py

自动求导 (autograd)

在深度学习中，权值的更新是依赖于梯度的计算，因此梯度的计算是至关重要的。在 PyTorch 中，只需要搭建好前向计算图，然后利用torch.autograd自动求导得到所有张量的梯度。

torch.autograd.backward()

torch.autograd.backward(tensors, grad_tensors=None, retain_graph=None, create_graph=False, grad_variables=None)

功能：自动求取梯度

tensors: 用于求导的张量，如 loss
retain_graph: 保存计算图。PyTorch 采用动态图机制，默认每次反向传播之后都会释放计算图。这里设置为 True 可以不释放计算图。
create_graph: 创建导数计算图，用于高阶求导
grad_tensors: 多梯度权重。当有多个 loss 混合需要计算梯度时，设置每个 loss 的权重。

retain_graph 参数

代码示例

w = torch.tensor([1.], requires_grad=True)
x = torch.tensor([2.], requires_grad=True)
# y=(x+w)*(w+1)
a = torch.add(w, x)
b = torch.add(w, 1)
y = torch.mul(a, b)

# 第一次执行梯度求导
y.backward()
print(w.grad)
# 第二次执行梯度求导，出错
y.backward()

其中y.backward()方法调用的是torch.autograd.backward(self, gradient, retain_graph, create_graph)。但是在第二次执行y.backward()时会出错。因为 PyTorch 默认是每次求取梯度之后不保存计算图的，因此第二次求导梯度时，计算图已经不存在了。在第一次求梯度时使用y.backward(retain_graph=True)即可。如下代码所示：

    w = torch.tensor([1.], requires_grad=True)
    x = torch.tensor([2.], requires_grad=True)
    # y=(x+w)*(w+1)
    a = torch.add(w, x)
    b = torch.add(w, 1)
    y = torch.mul(a, b)

    # 第一次求导，设置 retain_graph=True，保留计算图
    y.backward(retain_graph=True)
    print(w.grad)
    # 第二次求导成功
    y.backward()

grad_tensors 参数

代码示例：

w = torch.tensor([1.], requires_grad=True)
x = torch.tensor([2.], requires_grad=True)

a = torch.add(w, x)
b = torch.add(w, 1)

y0 = torch.mul(a, b)    # y0 = (x+w) * (w+1)
y1 = torch.add(a, b)    # y1 = (x+w) + (w+1)    dy1/dw = 2

# 把两个 loss 拼接都到一起
loss = torch.cat([y0, y1], dim=0)       # [y0, y1]
# 设置两个 loss 的权重: y0 的权重是 1，y1 的权重是 2
grad_tensors = torch.tensor([1., 2.])

loss.backward(gradient=grad_tensors)    # gradient 传入 torch.autograd.backward()中的grad_tensors
# 最终的 w 的导数由两部分组成。∂y0/∂w * 1 + ∂y1/∂w * 2
print(w.grad)

结果为：