梯度下降和反向传播推导（公式）

最新推荐文章于 2022-09-19 20:15:39 发布

翻译最新推荐文章于 2022-09-19 20:15:39 发布 · 2.4k 阅读

工作面试专栏收录该内容

10 篇文章

订阅专栏

本文深入解析梯度下降算法及其变种，包括批量、随机和小批量梯度下降，探讨学习率的选择与优化策略。同时，详细阐述反向传播原理，解释链式法则在神经网络中的应用，帮助读者理解深度学习中的关键优化过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、训练算法几乎都是使用梯度来使得代价函数下降，大多数都是对随机梯度下降算法的改进。

目标函数 $j(\theta )$ 关于 $\theta$ 的梯度是目标函数上升最快的方向。那么对于最优化问题，只需要将参数沿着梯度相反的方向前进一步就可以实现目标函数的下降，这个步长又称为学习率 $\eta$ ，更新的公式如下： $\theta =\theta -\eta \Delta \theta J(\theta )$ 。梯度下降可以根据数据集的不同分为批量梯度下降、随机梯度下降和小批量梯度下降。其中，批量梯度下降 $j(\theta )$ 是在整个训练集上计算的，如果数据集比较大，可能会面临着内存不足的问题，收敛速度会比较慢。随机梯度下降是另外一个极端， $j(\theta )$ 是针对训练集中一个样本计算的，又称为“在线学习”，也就是说得到一个样本，就可以执行一次参数更新，所以收敛速度会快一些，但是有可能出现目标函数值震荡现象，因为高频率的参数更新导致了高方差。小批量梯度下降算法是折中的方案，选取一个相对较小的训练集中的一个批量计算 $j(\theta )$ ，这样保证在训练过程中更加稳定，并且也可以利用矩阵的优势。

拓展知识：（由于梯度下降方法并不能保证达到全局最优，但是对于凸优化问题，理论上是可以到达全局最优的，因为这时只有唯一的一个局部最优点，但是深度模型非常复杂，一般输入非凸问题，则意味着有很多就局部最优点。优于梯度下降算法中一个重要的参数是学习率。理想的梯度下降方法的特点：收敛速度快，能全局收敛。）为了达到最理想的梯度下降算法，有很多其变种。

1）Momentum optimization

冲量梯度下降法的更新方程如下：，当参数更新时不仅仅要考虑当前的梯度值，还要加上一个累积冲量。而且多了个超参数 $\gamma$ ，其值一般取接近1，如0.9,0.99等。