动量梯度下降算法

本文介绍动量梯度下降算法,通过计算梯度的指数加权平均,使权重更新更加平滑,减少训练时间并允许使用较大学习率。算法在竖直方向消除振动,在水平方向加大步伐,提升训练效率。

上篇文章介绍了指数加权平均,这篇文章介绍在此基础上介绍一下动量梯度下降算法。

所谓动量梯度下降算法,简言之就计算梯度的指数加权平均,然后使用这个梯度来更新权重,下面我们来详细解释这句话。

我们在使用梯度下降算法更新权重时,希望损失函数能减小直到最优值。我们可以在一副等高线图中,画出损失函数随着迭代次数增加而减小的路径,即如下图所示:

图中红点为最优点,蓝线为损失函数的减小路径,从图中左侧出发,逐渐靠近最优点。不过我们可以发现,这条路径看起来十分曲折,虽然整体趋势是向右的,但在竖直方向有太多波动,这直接造成了两个负面影响:

  1. 增加了梯度下降的次数,增加了训练时间
  2. 无法使用较大的学习率

如果使用了较大的学习率,可能会出现下图中紫线的情况:

即虽然增大了向右的步伐,同时也增大了上下的步伐,导致损失函数值反而越来越大,因此为了避免振荡过大,我们只能选择较小的学习率。

为了使其步伐能在水平方向更大,而在竖直方向更小,可以使用之前提到的指数滑动平均。

我们说过,运用了指数滑动平均后,vtv_t

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值