在 小批量梯度下降中,如果每次选取样本数量比较小,损失会呈现震荡的方式下降。
动量是模拟物理中的概念。一般而言,一个物体的动量指的是这个物体在它运动方向上保持运动的趋势,是物体的质量和速度的乘积。
当我们将一个小球从山上滚下来,没有阻力时,它的动量会越来越大(速度越来越快),但是如果遇到了阻力,速度就会变小。动量优化法 就是借鉴此思想,使得梯度方向在不变的维度上,参数更新变快,梯度有所改变时,更新参数变慢,这样就能够 加快收敛并且减少动荡。
动量法移动公式
为时间步 t 的小批量数据上⽬标函数位于
处的梯度 ,时间步 t 的⾃变量为
,学习率为
。 动量超参数
满⾜
。当
时,动量法等价于⼩批量随机梯度下降。
要理解动量法先理解指数加权移动平均
给定
指数加权移动平均是在将当前值用他前面时间的值表示,所以动量法中当前的动量就可以用前面的动量表示,再利用当前动量影响自变量
所以说,在动量法中,我们根据 的值,确定当前的动量是根据前多少个时间步的动量做的指数加权移动平均,利用这些数据逐渐缩小参数收敛速率。