什么是梯度和梯度下降法？

最新推荐文章于 2025-04-18 12:15:36 发布

雨落的太敷衍..

最新推荐文章于 2025-04-18 12:15:36 发布

阅读量4.2k

点赞数 1

分类专栏：深度学习文章标签：算法人工智能深度学习

本文链接：https://blog.youkuaiyun.com/liu1073811240/article/details/109778359

版权

深度学习专栏收录该内容

33 篇文章

订阅专栏

本文介绍了梯度和梯度下降法。梯度是函数在某点变化率最大的方向。梯度下降法是沿梯度反方向移动，其要素有初始化权重、优化函数和学习率。还介绍了梯度下降法的类别，如标准、批量、小批量和随机梯度下降法，以及自适应学习率优化算法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、梯度

1.1 什么是梯度？

梯度是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，也就是该点变化率最大的方向。在现实中，就是山体的某点沿着山体最陡峭的向上方向就是梯度。

二、梯度下降法

2.1 什么是梯度下降法

● 梯度下降就是沿着梯度最陡的地方下降。也可以说梯度下降就是曲线或曲面上的某点沿着该点梯度的反方向移动。

● 如果我们从一个位置点x开始，每向下移动一点的距离，记做Oh，并将我们的位置更新为x-Oh，并且我们继续保持一致，直到达到底部。
在这里插入图片描述
梯度下降法的三要素：初始化权重、优化函数（动量）、学习率。

2.2 梯度下降法的类别

根据采用数据量可以分为标准梯度下降法（GD）、批量梯度下降法（BatchGradient Descent）、小批量梯度下降法（Mini-batch Gradient Descent）、随机梯度下降法（Stochastic Gradient Descent）

（1）标准梯度下降法（GD）

● 每个样本都计算一次
● 训练速度慢，容易陷入局部最优解

（2）批量梯度下降法（Batch Gradient Descent）

       批量梯度下降法是最原始的形式，它是指在每一次迭代时使用所有样本来进行梯度的更新。
       如果数据集比较大，可能会面临内存不足问题，而且其收敛速度一般比较慢（相较于GD要快一些），容易陷入局部最优解。选取平均梯度最小的方向。在这里插入图片描述
（3）小批量梯度下降法（Mini-batch Gradient Descent）
       小批量梯度下降算法是折中方案，选取训练集中一个小批量样本，这样可以保证训练过程更稳定，而且采用批量训练方法也可以利用矩阵计算的优势。
       通过矩阵运算，每次在一个batch上优化神经网络参数并不会比单个数据慢太多。
在这里插入图片描述
（4）随机梯度下降法（Stochastic Gradient Descent）

针对训练集中的一个训练样本计算的，又称为在线学习，即得到了一个样本，就可以执行一次参数更新。所以其收敛速度会快一些（不需要计算每个样本的梯度或平均梯度），但是有可能出现目标函数值震荡现象，因为高频率的参数更新导致了高方差。
从批样本随机选择一个方向进行下降。（某次有可能不正确，最终会正确）
在这里插入图片描述