本篇主要讲神经网络的常见优化方法。
目前,出现了很多优化方法,如SGD、AdaGrad、RMSProp、AdaDelta、Momentum、Nesterov-Momentum (Nesterov’s accelerated gradient--NAG)、Adam、AdaMax、Nadam,接下来对它们分别进行讲解:
SGD
最初始的梯度下降法
SGD优化的缺点:
- 选择合适的learning rate比较困难;==》可以通过自适应学习率的方法克服
- SGD对所有的参数更新使用了同样的learning rate。对于稀疏数据或者特征,有时我们可能想更新快一些对于不经常出现的特征,对于常出现的特征更新慢一些,这时候SGD就不太能满足要求了;==》可以通过自适应学习率的方法克服
- SGD容易收敛到局部最优,并且在某些情况下可能被困在鞍点(在合适的初始化和step size的情况下,鞍点的影响并没这么大)。==》可以通过动量法帮助跳出局部最优
由于SGD的这些缺点,后续出现了一些优化方法,这些优化方法基本都是沿着下面路线对SGD进行改进:
- 路线1:非全局随迭代变化的自适应学习率,AdaGrad --> RMSProp --> AdaDelta
- 路线2:当前迭代的梯度包含历史的梯度,即带动量,Moment --> Nesterov-Moment
- 路线3:路线1和路线2的结合,Adam --> AdaMax,Adam --> Nadam
AdaGrad
其主要思想:对更新的较少的参数要更新快一些,对于更新了很多的参数要更新慢一些;
通过不断累加每次训练中梯度的平方来判断参数更新的多少,从而调节相应的学习率,具体如下:
从公式中可以看出,随着算法不断迭代, 会越来越大,整体的学习率会越来越小。所以,一般来说AdaGrad算法一开始是放大梯度、激励收敛,到了后面就慢慢变成减小梯度、惩罚收敛,速度越来越慢,可能会使得训练提前结束;通常比较适合处理稀疏数据。
RMSProp
RMSProp是AdaGrad的改进算法,与AdaGrad不同,RMSProp只会累积近期的梯度信息,对于“遥远的历史”会以指数衰减的形式放弃,因为当参数空间非凸时,算法梯度下降的轨迹所经历的结构会复杂的多,早期梯度对当前训练没有太多意义;具体来说是用指数加权移动平均来代替粗暴的累加,公式如下:
从公式可以看出,RMSProp避免了学习速度越来越慢、甚至提前结束的困境;通常比较适合处理非平稳目标 - 对于RNN效果很好
AdaDelta
AdaDelta是与RMSProp相同时间对立发展出来的一个算法,在实现上可以看作是RMSProp的一个变种;其主要思路是近似二阶牛顿法,即
具体公式如下:
该算法的一大优势是不需要设置学习率;主要特点:训练初中期,加速效果不错,很快;训练后期,反复在局部最小值附近抖动
Momentum
类似于从山顶滚球,累计之前的动量,越滚越快;为减小过于久远的梯度对当前更新的影响,采样指数加权移动平均
可以看到,即使当前落入局部最优(当前梯度),由于历史动量的存在,仍然可以进行迭代更新、从而跳出局部最优。
Nesterov-Momentum
展开Momentum的参数更新公式可以看到,
也即是在参数处使用参数
处的梯度
进行更新得到参数
,很简单的可以想到,
应该在参数处使用参数
处的梯度
进行更新得到参数
根据上式可得
当初始值时,
,当收敛时
,
,所以
等价。
整理得;至此nesterov-Momentum公式完毕。
但是为什么nesterov-Momentum号称加速版Momentum、比Momentum优化收敛要快呢?
根据前面的公式可以看到,相比于Momentum的更新量 ,每次的参数更新量
允许使用更大
的来保存更多的历史,而在更新参数时对历史的使用更加的保守。
从另一个角度来看,
由可得
更新方向多加了一个,它的直观含义就很明显了:如果这次的梯度比上次的梯度变大了,那么有理由相信它会继续变大下去,那我就把预计要增大的部分提前加进来;如果相比上次变小了,也是类似的情况。
Adam
adam =adaptive learning rate + Momentum= 偏差修正版的RMSProp+偏差修正版的Momentum,其公式如下
AdaMax
Adam在计算adaptive learning rate时,使用的是平方梯度,也即是l2范数,AdaMax将l2范数变成无穷范数,
Nadam
Nadam=升级版的Adam=adaptive learning rate + nesterov-Momentum。
一般而言,在想使用带动量的RMSprop,或者Adam的地方,大多可以使用Nadam取得更好的效果。
由于nesterov-Momentum方法中涉及到变量替换,无法直接应用到Adam中,先对Adam的参数更新公式进行变换,
类似于nesterov-Momentum方法那样进行梯度替换和变量替换:
经过推导可以得到Nadam的更新公式:
本文深入探讨神经网络中的常见优化算法,包括SGD、AdaGrad、RMSProp、AdaDelta、Momentum、Nesterov-Momentum、Adam、AdaMax及Nadam。详细解析每种方法的工作原理、优缺点及适用场景,帮助读者理解如何有效提升模型训练效率。
2937

被折叠的 条评论
为什么被折叠?



