Deep learning II - II Optimization algorithms - Gradient descent with momentum 动量梯度下降算法

最新推荐文章于 2025-01-01 10:36:59 发布

dqhl1990

最新推荐文章于 2025-01-01 10:36:59 发布

阅读量512

点赞数

分类专栏：算法 deep learning 深度学习文章标签： gradient descent with momentum 动量梯度下降算法

34 篇文章

订阅专栏

29 篇文章

订阅专栏

29 篇文章

订阅专栏

本文介绍了一种改进版的梯度下降算法——动量梯度下降法。该方法通过运用指数加权平均来减少参数更新过程中的震荡，并加速收敛速度。文章详细解释了其工作原理及参数设置。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

运用指数加权平均算法，计算梯度的指数加权平均，然后用这个梯度来更新权重。
这里写图片描述

当使用梯度下降时，下降路径可能会和上图蓝色路径相似，不断震荡；所以我们不能用比较大的learning_rate，以防出现如紫色路径一样的diverging。
通过使用指数加权平均，在纵坐标（以上图阐述）方向的来回震荡通过加权之后，会相互抵消而减小；在横坐标方向，因为都是朝向最低点的方向，因此加权平局会叠加而增大；从而得到红色路径（步数更少，速度更快）。
$V d w = β V d w + (1 - β) d w$ $V_{{\rm d}w} = \beta V_{{\rm d}w} + (1-\beta){\rm d}w$
$V d b = β V d b + (1 - β) d b$ $V_{{\rm d}b} = \beta V_{{\rm d}b} + (1-\beta){\rm d}b$
$w : = w - α V d w$ $w := w- \alpha V_{{\rm d}w}$
$b : = b - α V d b$ $b := b- \alpha V_{{\rm d}b}$
$(1-\beta){\rm d}w$ ， $(1-\beta){\rm d}b$ 可以看作是加速度，从而加速梯度下降
实践中， $\beta = 0.9$ 的效果很不错，可以尝试其他值，不过0.9是一个稳健的数值
初始化 $V_{{\rm d}w} =0,\ V_{{\rm d}b} =0$
在gradient descent with momentum中不使用Bias correction $\frac{V_{{\rm d}w}}{1- \beta ^t}$ ，因为通常十次以后，就稳定了。
Gradient descent with momentum几乎总是优于没有动量的梯度下降法