深度学习--笔记（自动微分）--来自李沐-动手学深度学习

深度学习中的自动微分与反向传播

最新推荐文章于 2024-08-31 20:46:58 发布

原创最新推荐文章于 2024-08-31 20:46:58 发布 · 222 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #笔记 #人工智能

深度学习框架利用自动微分加速求导过程，通过构建计算图来跟踪数据处理。反向传播用于计算每个参数的偏导数，PyTorch中可通过设置`requires_grad=True`来启用梯度计算。在示例中，展示了对函数y=2x⊤x关于x求导的过程，并验证了梯度计算的正确性。此外，即使函数包含控制流，如循环和条件语句，仍能计算梯度。

部署运行你感兴趣的模型镜像

求导是⼏乎所有深度学习优化算法的关键步骤，深度学习框架通过⾃动计算导数，即⾃动微分（automatic differentiation）来加快求导。实际中，根据设计好的模型，系统会构建⼀个计算图（computational graph），来跟踪计算是哪些数据通过哪些操作组合起来产⽣输出。⾃动微分使系统能够随后反向传播梯度。这⾥，反向传播（backpropagate）意味着跟踪整个计算图，填充关于每个参数的偏导数。

假设我们想对函数y = 2x ⊤x关于列向量x求导。

⾸先，我们创建变量x并为其分配⼀个初始值。

import torch
x = torch.arange(4.0)
x

在我们计算y关于x的梯度之前，需要⼀个地⽅来存储梯度。重要的是，我们不会在每次对⼀个参数求导时都分配新的内存。因为我们经常会成千上万次地更新相同的参数，每次都分配新的内存可能很快就会将内存耗尽。注意，⼀个标量函数关于向量x的梯度是向量，并且与x具有相同的形状。

# 开辟内存区存梯度
x.requires_grad_(True) # 等价于x=torch.arange(4.0,requires_grad=True)
x.grad # 默认值是None

requires_grad: 如果需要为张量计算梯度，则为True，否则为False。我们使用pytorch创建tensor时，可以指定requires_grad为True（默认为False），

grad_fn： grad_fn用来记录变量是怎么来的，方便计算梯度，y = x*3,grad_fn记录了y由x计算的过程。

grad：当执行完了backward()之后，通过x.grad查看x的梯度值。

通过调⽤反向传播函数来⾃动计算y关于x每个分量的梯度，并打印这些梯度。

y.backward()
x.grad

函数y = 2x ⊤x关于x的梯度应为4x。让我们快速验证这个梯度是否计算正确。

结果正确

使⽤⾃动微分的⼀个好处是：即使构建函数的计算图需要通过Python控制流（例如，条件、循环或任意函数调⽤），我们仍然可以计算得到的变量的梯度。在下⾯的代码中，while循环的迭代次数和if语句的结果都取决于输⼊a的值。

def f(a):
    b = a * 2
    while b.norm() < 1000:
        b = b * 2
    if b.sum() > 0:
        c = b
    else:
        c = 100 * b
    return c

让我们计算梯度。

a = torch.randn(size=(), requires_grad=True)
d = f(a)
d.backward()

我们现在可以分析上⾯定义的f函数。请注意，它在其输⼊a中是分段线性的。换⾔之，对于任何a，存在某个常量标量k，使得f(a)=k*a，其中k的值取决于输⼊a，因此可以⽤d/a验证梯度是否正确。

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理

深度学习--笔记（自动微分）--来自李沐-动手学深度学习

1 条评论