深度学习--笔记(自动微分)--来自李沐-动手学深度学习

深度学习中的自动微分与反向传播
深度学习框架利用自动微分加速求导过程,通过构建计算图来跟踪数据处理。反向传播用于计算每个参数的偏导数,PyTorch中可通过设置`requires_grad=True`来启用梯度计算。在示例中,展示了对函数y=2x⊤x关于x求导的过程,并验证了梯度计算的正确性。此外,即使函数包含控制流,如循环和条件语句,仍能计算梯度。
部署运行你感兴趣的模型镜像

求导是⼏乎所有深度学习优化算法的关键步骤,深度学习框架通过⾃动计算导数,即⾃动微分(automatic differentiation)来加快求导。实际中,根据设计好的模型,系统会构建⼀个计算图(computational graph),来跟踪计算是哪些数据通过哪些操作组合起来产⽣输出。⾃动微分使系统能够随后反向传播梯度。这⾥,反向传播(backpropagate)意味着跟踪整个计算图,填充关于每个参数的偏导数。

假设我们想对函数y = 2x ⊤x关于列向量x求导。

⾸先,我们创建变量x并为其分配⼀个初始值。

import torch
x = torch.arange(4.0)
x

在我们计算y关于x的梯度之前,需要⼀个地⽅来存储梯度。重要的是,我们不会在每次对⼀个参数求导时都分配新的内存。因为我们经常会成千上万次地更新相同的参数,每次都分配新的内存可能很快就会将内存耗尽。注意,⼀个标量函数关于向量x的梯度是向量,并且与x具有相同的形状。

# 开辟内存区存梯度
x.requires_grad_(True) # 等价于x=torch.arange(4.0,requires_grad=True)
x.grad # 默认值是None

requires_grad: 如果需要为张量计算梯度,则为True,否则为False。我们使用pytorch创建tensor时,可以指定requires_grad为True(默认为False),

grad_fn: grad_fn用来记录变量是怎么来的,方便计算梯度,y = x*3,grad_fn记录了y由x计算的过程。

grad:当执行完了backward()之后,通过x.grad查看x的梯度值。

通过调⽤反向传播函数 来⾃动计算y关于x每个分量的梯度,并打印这些梯度。

y.backward()
x.grad

函数y = 2x ⊤x关于x的梯度应为4x。让我们快速验证这个梯度是否计算正确。

结果正确

使⽤⾃动微分的⼀个好处是:即使构建函数的计算图需要通过Python控制流(例如,条件、循环或任意函数 调⽤),我们仍然可以计算得到的变量的梯度。在下⾯的代码中,while循环的迭代次数和if语句的结果都取 决于输⼊a的值。

def f(a):
    b = a * 2
    while b.norm() < 1000:
        b = b * 2
    if b.sum() > 0:
        c = b
    else:
        c = 100 * b
    return c

让我们计算梯度。

a = torch.randn(size=(), requires_grad=True)
d = f(a)
d.backward()

我们现在可以分析上⾯定义的f函数。请注意,它在其输⼊a中是分段线性的。换⾔之,对于任何a,存在某个常量标量k,使得f(a)=k*a,其中k的值取决于输⼊a,因此可以⽤d/a验证梯度是否正确。 

 

 

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch 2.5

PyTorch
Cuda

PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

### 关于李沐深度学习课程中循环卷积网络部分的学习笔记李沐的《动手学深度学习》教材及其配套资源中,虽然主要关注的是基础概念、数据操作以及经典的卷积神经网络(CNN),但对于更复杂的结构如循环卷积网络(Recurrent Convolutional Networks, RCNs)也有一定的涉及[^1]。然而,在具体章节安排上,RCN的内容并未单独成篇,而是作为高级主题的一部分被提及。 #### 循环卷积网络简介 循环卷积网络是一种结合了卷积神经网络(CNN)的空间特征提取能力和循环神经网络(RNN)的时间序列建模能力的方法。这种模型特别适用于处理具有时空依赖性的任务,比如视频分类或动作识别。通过引入时间维度上的记忆机制,RCN能够更好地捕捉动态变化的信息[^4]。 #### 学习路径建议 对于希望深入理解循环卷积网络的学生来说,可以从以下几个方面入手: 1. **基础知识巩固**: 首先复习卷积神经网络的基础理论,包括但不限于卷积层的工作原理、池化操作的作用等。这部分内容可以通过阅读李沐老师的讲义或者观看其相关视频完成[^3]。 2. **时间序列分析入门**: 接着了解基本的RNN变体,例如LSTM(Long Short-Term Memory) 和 GRU(Gated Recurrent Unit),这些单元如何解决梯度消失等问题是非常重要的知识点。 3. **融合实践探索**: 当具备上述两项技能之后,则可尝试将两者结合起来应用到实际场景当中去。这里推荐查阅一些最新的科研论文或是开源项目案例来进行模仿练习[^2]。 以下是简单的代码片段展示如何构建一个基础版本的RCN模型: ```python import torch.nn as nn class SimpleRCN(nn.Module): def __init__(self, input_channels, num_classes): super(SimpleRCN, self).__init__() # Define a CNN part self.cnn = nn.Sequential( nn.Conv2d(input_channels, 64, kernel_size=3), nn.ReLU(), nn.MaxPool2d(kernel_size=2)) # Flatten the output of CNN to feed into RNN self.flatten = nn.Flatten() # Define an LSTM layer after flattening spatial features self.lstm = nn.LSTM(64 * 7 * 7, hidden_size=128, batch_first=True) # Final fully connected layer for classification task self.fc = nn.Linear(128, num_classes) def forward(self, x): cnn_outs = [] T = x.size(1) # Time steps for t in range(T): out_cnn = self.cnn(x[:,t,:,:]) flattened = self.flatten(out_cnn) cnn_outs.append(flattened.unsqueeze(dim=1)) lstm_input = torch.cat(cnn_outs,dim=1) _, (hn,cn)= self.lstm(lstm_input) final_output = hn[-1] return self.fc(final_output) ```
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值