(1)指数加权平均:一种近似求平均的方法,公式如下:
代表局部的平均值。
代表第t个数据的值。
是可调节超参。可近似为前
个数据的的平均值。
举例说明,设,则近似代表近10个数据的平均值:
指数递减的加权的移动平均,越近期的数据加权越大。对原始数据做了平滑,降低了原始数据的震荡程度,怎么看是前多少个数据的平均值呢,n通过
得到。
(2)SGD with Momentum
采用上述指数加权平均的思路,在SGD中增加动量的概念,使得前几轮的梯度也会加入到当前的计算中(会有一定衰减),通过对前面一部分梯度的指数加权平均使得梯度下降过程更加平滑,减少动荡,收敛也比普通的SGD快。当前梯度方向与累计梯度方向一致时,梯度会被加强,从而这一步下降幅度增大,若方向不一致,则会减弱当前下降的梯度幅度。
是当前梯度值,
常设为0.9,也就是前10个梯度的平均值。参数
的更新公式如下:
本文介绍了指数加权平均的概念及其在近似求平均中的应用,并详细解释了如何利用该方法来改进随机梯度下降算法(SGD),形成SGDwithMomentum,以实现更平滑的梯度下降过程。
1118

被折叠的 条评论
为什么被折叠?



