神经网络优化中的学习率调整（下）_神经网络动态改变学习率-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_45684362/article/details/129812082

本文介绍了自适应学习率优化算法，包括AdaGrad如何自适应调整每个参数的学习率，RMSprop通过指数衰减移动平均避免学习率过早衰减，以及AdaDelta算法在RMSprop基础上进一步平抑学习率波动。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在上一遍文章中详细介绍了学习率衰减、学习率预热、周期性学习率调整几种方法，本文将主要介绍一些自适应调整学习率的方法，例如AdaGrad、RMSprop、 AdaDelta 等。想要了解学习率衰减、学习率预热、周期性学习率调整方法的朋友可以在文末找到链接入口。

一、AdaGrad算法

在标准的梯度下降法中，每个参数在每次迭代时都使用相同的学习率。由于每个参数的维度上收敛速度都不相同，因此需要根据不同参数的收敛情况分别设置学习率。

AdaGrad算法（ Adaptive Gradient Algorithm ）是借鉴 ℓ2 正则化的思想，每次迭代时自适应地调整每个参数的学习率。在第 𝑡 次迭代时，先计算每个参数梯度平方的累计值：

其中 ⊙ 为按元素乘积，𝒈𝜏 ∈ ℝ |𝜃| 是第 𝜏 次迭代时的梯度。

AdaGrad 算法的参数更新差值为：

其中 𝛼 是初始的学习率，𝜖 是为了保持数值稳定性而设置的非常小的常数，一般取值e −7 到 e −10。此外，这里的开平方、除、加运算都是按元素进行的操作。在 AdaGrad 算法中，如果某个参数的偏导数累积比较大，其学习率相对较小；相反，如果其偏导数累积较小，其学习率相对较大。但整体是随着迭代次数的增加，学习率逐渐缩小。

AdaGrad 算法的缺点是在经过一定次数的迭代依然没有找到最优点时，由于这时的学习率已经非常小，很难再继续找到最优点。