Batch and Momentum
Momentum方法
momentum就是动量,即loss函数在到达gradient的critical point不会直接停下来,能够直接凭借之前(较大的)gradient直接冲过critical point。
在真实的物理世界里面不会被saddle point 或者 local minima 卡住。与此类似的技术就是momentum方法。

Vanilla Gradient Descent 一般梯度下降
vanilla 仙草

在初始点,确定一个g0,同时朝这个的反方向运动。朝gradient的反方向去update参数
深度学习优化技巧:动量法(Momentum)解析

本文介绍了动量法(Momentum)在梯度下降中的应用,解释了它如何帮助优化器避免局部最小值和鞍点。动量法结合了当前梯度方向与前一次更新的方向,使得参数更新不仅考虑当前梯度,还考虑历史梯度的累积影响,从而加快收敛速度并改善搜索路径。通过这种方式,即使在梯度接近于0时,动量法也能保持参数更新,有助于找到更好的全局最小值。
最低0.47元/天 解锁文章
762

被折叠的 条评论
为什么被折叠?



