李沐笔记+课后习题（自动求导）

最新推荐文章于 2024-12-13 09:35:45 发布

原创

最新推荐文章于 2024-12-13 09:35:45 发布 · 1.4k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #神经网络

这篇博客深入探讨了自动求导的概念，包括向量链式法则，以及其在计算函数导数中的应用。通过介绍计算图，解释了自动求导的正向和反向模式，并讨论了它们的复杂度。此外，文中提出了一些课后练习，如比较一阶和二阶导数的计算开销，以及在不同输入情况下反向传播的影响，强调了在控制流中分析梯度的重要性。最后，通过一个具体的例子展示了如何绘制sin(x)及其导数的图像，不依赖于标准导数公式。

向量链式法则：

自动求导：（计算一个函数在指定值上的导数）

计算图：

自动求导的两种模式：（正向和反向）

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_42310607

关注关注

6
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

深度学习：非标量调用backward()求梯度实现原理、detach()

qq_52209929的博客

03-26

2620

计算图非标量调用backward()求梯度 x = torch.arange(4.0) x.requires_grad = True y = x * x 方法1：通过y.sum().backward()调用反向传播 y.sum().backward() print(x.grad) sum为y.sum() 把x带入得 x.grad为(0,2,4,8) 方法2：传入shape和x一样的ones参数 y.backward(torch.ones(x.shape)) ...

【动手学深度学习】 2预备知识

sumshine_的博客

09-12

1792

第二章的知识涉及数据操作、数据预处理、线性代数、微分、求导、随机过程。其中数据预处理比较重要，单独写一篇。知识点中要明确一个名词——张量，其他的是复习一些数学上的知识以及学习其代码实现的过程。

1 条评论您还未登录，请先登录后发表或查看评论

【深度学习】自动求导中有时为什么要先sum()再backward()

qq_43722079的博客

03-09

1803

在深度学习中，被求导的对象（样本/输入）一般是多元的（向量x），绝大多数情况是标量y对向量x进行求导，很少向量y对向量x进行求导，否则就会得到复杂的微分矩阵（且torch无法直接处理这种操作，需要在backward()中添加gradient参数才能实现）。所以经常把一个样本看做一个整体，它包含多个变量（属性），对其所有属性求导后再加和，就得到了这个样本的偏导数之和。因此当计算得到的y是一个关于x的向量的话，我们可以通过y.sum()操作将y标量化，再反向传播，得到标量对x的导数。

pycharm笔记-动手学深度学习（李沐）自动微分课后习题

weixin_46480637的博客

10-26

4809

动手学深度学习课后习题

《动手学深度学习——李沐》课后练习

qq_45730823的博客

06-12

731

常见的机器学习，自动优化算法可以通过学习来进行改进。首先说明启发式设计选择，在平时的代码中还没有包含这种设计启发式设计的另一面可以是理性设计。

李沐笔记+课后习题（数据操作+数据预处理）

qq_42310607的博客

09-30

1268

N维数组 ——是机器学习和神经网络的主要数据结构创建数组需要：形状（例如3*4的矩阵）、每个元素的数据类型（例如32位浮点数）、每个元素的值（例如全为0或随机数）访问元素 ...

李沐笔记+课后练习（线性代数）

qq_42310607的博客

10-01

499

标量：向量：矩阵：特殊矩阵：线性代数实现： import torch # 标量由只有一个元素的张量表示 x = torch.tensor([3.0]) y = torch.tensor([2.0]) print(x+y, x*y, x/y, x**y) # 可以将向量视为标量值组成的列表 x = torch.arange(4) print(x) # 通过张...

pycharm笔记-动手学深度学习（李沐）数据预处理课后习题

weixin_46480637的博客

10-20

1084

动手深度学习（李沐），使用pycharm完成课后练习题。

pycharm笔记-动手学深度学习（李沐）线性代数课后习题

weixin_46480637的博客

10-22

920

动手深度学习课后习题笔记

[课程笔记]（李沐-动手学深度学习）

weixin_38800498的博客

06-09

8520

比如y=|x|的导数，可以在[-1,1]之间取任意值将导数拓展到向量->梯度第一种情况：y标量x向量（y标量x向量）补充：内积可以这样来理解向量内积：向量a、b的内积等于向量a在b方向的分量（或投影）与b的内积，当a、b垂直时，a在b方向上无分量，所以内积为0。其他几何意义：从内积数值上我们可以看出两个向量的在方向上的接近程度。当内积值为正值时，两个向量大致指向相同的方向（方向夹角小于90度）；当内积值为负值时，两个向量大致指向相反的方向（方向角大于90度）；当内积值为0时，两个向量互相垂

pytorch中tensor求导:y.sum().backward()为什么求导的时候要进行这个sum操作；

JEREMY的博客

02-08

2579

pytorch中tensor求导:y.sum().backward()为什么求导的时候要进行这个sum操作；

pytorch中tensor求导--y.sum().backward()为什么求导的时候要进行这个sum操作

guanguanboy的专栏

01-10

8420

x = torch.arange(-8.0, 8.0, 0.1, requires_grad=True) y = x.tanh() #xyplot(x, y, 'tanh') #绘制tanh的导数 x.grad.zero_() y.sum().backward() #为什么求导的时候要进行这个sum操作。 xyplot(x, x.grad, 'grad of tanh') 原因是：...

动手学深度学习-关于y.sum().backward()中sum的理解

小菜的博客

04-08

502

当y不是标量时，向量y关于向量x的导数的最自然解释是一个矩阵。对于高阶和高维的y和x，求导的结果可以是一个高阶张量。然而，虽然这些更奇特的对象确实出现在高级机器学习中（包括深度学习中），但当调用向量的反向计算时，我们通常会试图计算一批训练样本中每个组成部分的损失函数的导数。这里，我们的目的不是计算微分矩阵，而是单独计算批量中每个样本的偏导数之和。

动手学深度学习——矩阵求导之自动求导

时生的博客

03-11

5354

深度学习框架通过自动计算导数，即自动微分（automatic differentiation）来加快求导。实际中，根据我们设计的模型，系统会构建一个计算图（computational graph），来跟踪计算是哪些数据通过哪些操作组合起来产生输出。自动微分使系统能够随后反向传播梯度。这里，反向传播（backpropagate）意味着跟踪整个计算图，填充关于每个参数的偏导数。

深度学习——基础知识：自动求导

平什么阿的博客

09-01

959

文章目录一. 简单例子一. 简单例子假设我们想对函数 y=2x⊤x 关于列向量 x 求导。首先，我们创建变量x并为其分配一个初始值。 import torch x = torch.arange(4.0) x ###输出 tensor([0., 1., 2., 3.])

《动手学深度学习》第二章——预备知识_2.5自动微分_学习思考与习题答案

weixin_45042017的博客

02-13

1330

2.5. 自动微分练习练习参考答案参考资料

沐神动手深度学习 04自动求导

weixin_41543441的博客

05-12

369

沐神动手学习深度学习04自动求导相关基础代码

动手学习深度学习打卡记录：一基础部分

qq_51013517的博客

12-13

1117

通过看李沐视频，和其他博客，记录自己学习深度学习时候认为的重点

d2l自动微分练习

qq_34993631的博客

01-19

3012

课后题自动微分自动微分为什么计算二阶导数比一阶导数的开销要更大？简单来说就是会造成梯度维数的增大，标量对向量的求导是一个向量，在此基础上再对向量求导就会变成一个矩阵，进一步的会变成张量。在运行反向传播函数之后，立即再次运行它，看看会发生什么。运行时异常，之前的结果已经被释放，而且给出了提示，说要使用retain_graph=True就能够保证结果不被释放。 RuntimeError: Trying to backward through the graph a second time, but

李沐深度学习自动求导

最新发布

02-25

### 李沐关于深度学习自动求导的内容 #### 自动求导的概念与重要性自动求导是一种用于高效计算函数导数的技术，尤其适用于复杂的多层神经网络中的梯度计算。对于含有大量训练参数的模型来说，手动推导和编程实现这些导数既耗时又容易出错。因此，现代深度学习框架通常内置了高效的自动微分工具来简化这一过程。 #### 反向传播算法及其工作原理反向模式即所谓的BP(Backpropagation)算法，它依赖于链式法则来进行误差信号沿网络传播的操作。通过一次完整的前向遍历以及随后的一次反向遍历，该方法能够有效地计算出所有权重相对于损失函数的变化率——也就是所需的梯度信息[^3]。 #### 动手实践：基于PyTorch的手动构建自定义Layer并应用自动求导机制为了更好地理解如何利用现有的库特性实现自己的模块化组件，下面给出一段简单的Python代码片段作为示范： ```python import torch.nn as nn from d2l import torch as d2l class CustomLinear(nn.Module): def __init__(self, input_dim, output_dim): super(CustomLinear, self).__init__() self.weight = nn.Parameter(torch.randn(output_dim, input_dim)) self.bias = nn.Parameter(torch.zeros(output_dim)) def forward(self, X): linear_output = torch.matmul(X, self.weight.t()) + self.bias return linear_output # 测试自定义线性层 if __name__ == "__main__": layer = CustomLinear(input_dim=5, output_dim=3) inputs = torch.rand((4, 5)) # 创建随机输入张量 (batch_size=4, feature_num=5) outputs = layer(inputs) print(outputs.shape) loss_fn = nn.MSELoss() target = torch.ones_like(outputs) loss = loss_fn(outputs, target) # 计算梯度 loss.backward() # 打印部分参数梯度 print(layer.weight.grad.mean(), layer.bias.grad.mean()) ``` 这段程序展示了怎样创建一个继承自`nn.Module`类的新类型，并重写其中的关键成员函数以适应特定需求；同时说明了当调用`.backward()`之后，系统会自动完成相应的梯度累积操作，从而使得后续优化器更新变得简单可行。