使用动量的梯度下降法

最新推荐文章于 2025-11-02 11:19:26 发布

原创最新推荐文章于 2025-11-02 11:19:26 发布 · 3.2k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#使用动量的梯度下降法 #指数加权平均 #梯度下降

深度学习与机器学习专栏收录该内容

79 篇文章

订阅专栏

本文介绍如何使用动量法改进梯度下降算法，通过计算指数加权平均梯度，减少权重更新过程中的振荡，加速收敛。文章详细解释了动量法的工作原理，并给出了具体的计算公式。

整理自吴恩达深度学习系列视频：
https://mooc.study.163.com/learn/2001281003?tid=2001391036#/learn/content?type=detail&id=2001702123
In one sentence, the basic idea is to compute an exponentially weighted average of your gradients, and then use that gradient to update your weights instead

指数加权平均参考前一篇博客：https://blog.youkuaiyun.com/Solo95/article/details/84837217

使用动量的梯度下降法

在这里插入图片描述

如图所示，普通的梯度下降法如图中蓝色画线所示，它在接近最优值红点时，会上下摆动，导致不能很快的收敛到红点，而且如果摆动的幅度过大还会导致发散(紫色画线所示)，这也是为什么不能采用很大的learning_rate来加快学习速度。

所以我们引入了指数加权平均来计算梯度的平均值，这会抵消大部分梯度的垂直方向上的摆动，同时保留水平方向上的前进速度，使其更快收敛。使用动量的梯度下降法，“动量”，来自对它的物理上的解释，相当于在一个碗里丢一个小球，通过赋予小球动量，使其减少在碗壁上的左右摆动，让它更快到达碗底，。

使用动量的梯度下降法计算方法

在这里插入图片描述
在每次迭代中，我们计算：
$vdw=βvdw+(1−β)dWv_{dw}=\beta v_{dw}+(1-\beta)dW$ 即指数加权平均，下同。
$vdb=βvdb+(1−β)dbv_{db}=\beta v_{db}+(1-\beta)db$

注意 $β=0\beta=0$ 时，就退化成了普通的梯度下降。

起始bias修正：
因为我们取 $v_{dw}$ 和 $v_{db}$ 为零，所以一开始计算出的 $v_{dw}$ 和 $v_{db}$ 将会小于实际值，为了修正起始阶段这个偏差，使用以下计算方法：
$vdw=vdw1−βtv_{dw}=\frac{v_{dw}}{1-\beta^t}$
$vdb=vdb1−βtv_{db}=\frac{v_{db}}{1-\beta^t}$