李沐机器学习第三节——矩阵计算（导数）

最新推荐文章于 2025-04-07 21:33:28 发布

千千一面、

最新推荐文章于 2025-04-07 21:33:28 发布

阅读量1.9k

点赞数 4

分类专栏：笔记文章标签：线性代数机器学习深度学习

本文链接：https://blog.youkuaiyun.com/weixin_43586185/article/details/116404433

版权

本文探讨了矩阵计算在机器学习和深度学习中的应用，包括向量的导数概念，如梯度和不同变量形状下的导数形式。同时，介绍了自动求导的基本原理和两种模式，即计算图和链式法则，并通过示例解释了正向和反向传播在计算导数中的作用。最后，提到了在实际计算中如何处理向量和矩阵的求导问题，特别是在批量数据处理中的策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import torch
x = torch.arange(4.0)
x.requires_grad_(True)#等价于x = torch.arange(4.0,requires_grad=True)
x.grad #默认值是None

#现在计算y
y = 2*torch.dot(x,x)

矩阵求导

函数不可微时怎么办？——（将导数拓展到不可微的函数）亚导数

矩阵求导

函数不可微时怎么办？——（将导数拓展到不可微的函数）亚导数

将导数拓展到向量（要搞清“形状”）

梯度——梯度指向值变化最大的方向，梯度向量与等高线正交（表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。假设一个函数值y由多个参数x确定，那么在每一个参数维度下，都有y随着这个x的变化而变化，这个变化率就是y关于x的偏导，这个变化率也成为一个函数，我们能找到一些参数使得这个函数找到最优解，同理对于其他的x也一样。假设这个变化率函数用向量来表示，那么所有向量之和得到的，就是函数y关于所有变量的梯度，我们要找到所有参数使得这个梯度最优。