1,首先SGDM不会被类似于极小点的地方卡住而停止更新.因为SGDM与SGD最大的不同在于v值中包括了过去走过的所有梯度.
如上图,该方法引入了momentum,最终的移动方向由梯度与monentum共同决定.而不单纯由梯度决定,从而使得更新不会停止.
2,本方法的主要作用是动态调整学习率,在过去梯度比较大的地方(说明该部分损失函数变化比较大),这时候就需要减小学习率,而在过去梯度比较小的地方,说明变化比较小,学习率可以放心前进,所以用大的学习率
3,
这个算法与adagram算法的不同之处在于vt不会急剧增大,来平衡过去的梯度与现在梯度的关系.但是本算法解决不了在梯度小的地方会停止更新的问题.
4,
SGDM方法改变梯度,rms方法改变学习率,这里对mt与vt都进行了处理,是因为不想让mt与vt变大速度太快.
5,