梯度下降法
梯度下降法的更新公式:
梯度下降法的变式
1.SGD
随机梯度下降法是梯度下降法的一个小变形,就是每次使用一批(batch)数据进行梯度的计算,而不是计算全部的数据的梯度,因为现在深度学习使用的数据量都特别的大,所以每次计算所有的梯度都是不现实的,这样会导致运算时间过长,同时每次都计算全部的梯度还失去了一些随机性,容易引入一些局部误差,所以使用随机梯度下降法可能每次都不是朝着真正的最小的方向,但是这样反而容易跳出局部极小点。
2.Momentum
第二种优化方法就是在随机梯度下降的同事,增加动量(Momentum)。这来自于物理中的概念,可以想象 损失函数是一个山谷,一个球从山谷滑下来,在一个平坦的地势,球的滑动速度就会慢下来,可能会陷入一些鞍点或者局部极小值点,如下图所示。

这时候给它增加动量就可以让它从高处滑落的势能转换

本文介绍了PyTorch中几种常见的优化算法,包括梯度下降法、SGD、Momentum、Adagrad、RMSprop和Adam。SGD在大数据集上使用,Momentum利用动量帮助越过局部最小值,Adagrad和RMSprop通过自适应学习率改进,而Adam结合了RMSprop和Momentum的优点,通常作为默认优化器。
最低0.47元/天 解锁文章
1563

被折叠的 条评论
为什么被折叠?



