神经网络基础3：优化方法

最新推荐文章于 2024-10-11 09:22:39 发布

原创最新推荐文章于 2024-10-11 09:22:39 发布 · 346 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#AdaGrad #RMSProp #AdaDelta #Adam #Nadam

神经网络基础专栏收录该内容

5 篇文章

订阅专栏

本文深入探讨神经网络中的常见优化算法，包括SGD、AdaGrad、RMSProp、AdaDelta、Momentum、Nesterov-Momentum、Adam、AdaMax及Nadam。详细解析每种方法的工作原理、优缺点及适用场景，帮助读者理解如何有效提升模型训练效率。

本篇主要讲神经网络的常见优化方法。

目前，出现了很多优化方法，如SGD、AdaGrad、RMSProp、AdaDelta、Momentum、Nesterov-Momentum (Nesterov’s accelerated gradient--NAG)、Adam、AdaMax、Nadam，接下来对它们分别进行讲解：

SGD

最初始的梯度下降法

$\left\{ \begin{matrix} g_t = \bigtriangledown _{\theta^{t-1}}{f(\theta^{t-1})} \\ \theta^t = \theta^{t-1} - \eta g_t \end{matrix}\right.$

SGD优化的缺点：

选择合适的learning rate比较困难；==》可以通过自适应学习率的方法克服
SGD对所有的参数更新使用了同样的learning rate。对于稀疏数据或者特征，有时我们可能想更新快一些对于不经常出现的特征，对于常出现的特征更新慢一些，这时候SGD就不太能满足要求了；==》可以通过自适应学习率的方法克服
SGD容易收敛到局部最优，并且在某些情况下可能被困在鞍点（在合适的初始化和step size的情况下，鞍点的影响并没这么大）。==》可以通过动量法帮助跳出局部最优

由于SGD的这些缺点，后续出现了一些优化方法，这些优化方法基本都是沿着下面路线对SGD进行改进：

路线1：非全局随迭代变化的自适应学习率，AdaGrad --> RMSProp --> AdaDelta
路线2：当前迭代的梯度包含历史的梯度，即带动量，Moment --> Nesterov-Moment
路线3：路线1和路线2的结合，Adam --> AdaMax，Adam --> Nadam

AdaGrad

其主要思想：对更新的较少的参数要更新快一些，对于更新了很多的参数要更新慢一些；

通过不断累加每次训练中梯度的平方来判断参数更新的多少，从而调节相应的学习率，具体如下：

$\left\{ \begin{matrix} v^t = v^{t-1} + g_t^2 \\ \theta^t = \theta^{t-1} - \frac{\eta}{\epsilon + \sqrt{v^t}}g_t \end{matrix}\right.$

从公式中可以看出，随着算法不断迭代， $v^t$ 会越来越大，整体的学习率会越来越小。所以，一般来说AdaGrad算法一开始是放大梯度、激励收敛，到了后面就慢慢变成减小梯度、惩罚收敛，速度越来越慢，可能会使得训练提前结束；通常比较适合处理稀疏数据。

RMSProp

RMSProp是AdaGrad的改进算法，与AdaGrad不同，RMSProp只会累积近期的梯度信息，对于“遥远的历史”会以指数衰减的形式放弃，因为当参数空间非凸时，算法梯度下降的轨迹所经历的结构会复杂的多，早期梯度对当前训练没有太多意义；具体来说是用指数加权移动平均来代替粗暴的累加，公式如下：

$\left\{ \begin{matrix} v^t = \beta v^{t-1} + (1-\beta) g_t^2 \\ \theta^t = \theta^{t-1} - \frac{\eta}{\epsilon + \sqrt{v^t}}g_t \end{matrix}\right.$

从公式可以看出，RMSProp避免了学习速度越来越慢、甚至提前结束的困境；通常比较适合处理非平稳目标 - 对于RNN效果很好

AdaDelta

AdaDelta是与RMSProp相同时间对立发展出来的一个算法，在实现上可以看作是RMSProp的一个变种；其主要思路是近似二阶牛顿法，即

$\Delta \theta^t = -g^t/H^t \Rightarrow 1/H^t = -\Delta \theta^t / g^t \approx -RMS(\Delta \theta^{t-1}) / RMS(g^t) \\ \Rightarrow \Delta \theta^t = -\frac{RMS(\Delta \theta^{t-1})}{RMS(g^t)} g^t$

具体公式如下：

$\left\{ \begin{matrix} v^t = \beta v^{t-1} + (1-\beta) g_t^2 \\ \theta^t = \theta^{t-1} - \frac{\sqrt{\epsilon+s^{t-1}}}{\sqrt{\epsilon + v^t}}g_t = \theta^{t-1}+\Delta \theta_t\\ s^t = \beta s^{t-1}+(1-\beta)\Delta \theta_t^2 \end{matrix}\right.$

该算法的一大优势是不需要设置学习率；主要特点：训练初中期，加速效果不错，很快；训练后期，反复在局部最小值附近抖动

Momentum

类似于从山顶滚球，累计之前的动量，越滚越快；为减小过于久远的梯度对当前更新的影响，采样指数加权移动平均

$\left\{ \begin{matrix} m^t = \beta m^{t-1} + (1-\beta) g_t \\ \theta^t = \theta^{t-1} - \eta m^t \end{matrix}\right.$

可以看到，即使当前落入局部最优（当前梯度 $g_t = 0$ ），由于历史动量的存在，仍然可以进行迭代更新、从而跳出局部最优。

Nesterov-Momentum

展开Momentum的参数更新公式可以看到，

$\theta^t = \theta^{t-1} - \eta \beta m^{t-1} - \eta (1-\beta) g_t =\tilde{\theta}^{t-1}-\eta (1-\beta) g_t$

也即是在参数 $\tilde{\theta}^{t-1}$ 处使用参数 ${\theta}^{t-1}$ 处的梯度 $g_t$ 进行更新得到参数 $\theta^{t}$ ，很简单的可以想到，

应该在参数 $\tilde{\theta}^{t-1}$ 处使用参数 $\tilde{\theta}^{t-1}$ 处的梯度 $\tilde{g}_t$ 进行更新得到参数 $\theta^{t}$

$\left\{ \begin{matrix} \tilde{g}_t = \bigtriangledown _{\tilde{\theta}^{t-1}}{f(\tilde{\theta}^{t-1})}= \bigtriangledown _{\tilde{\theta}^{t-1}}{f(\theta^{t-1}-\eta \beta m^{t-1})}\\ \theta^t = \tilde{\theta}^{t-1} - \eta (1-\beta) \tilde{g}_t \end{matrix}\right.$

根据上式可得 $\tilde{\theta}^{t} = \theta^{t}-\eta \beta m^{t} \\ = \tilde{\theta}^{t-1} - \eta (1-\beta) \tilde{g}_t - \eta \beta m^{t} \\ = \tilde{\theta}^{t-1} - \eta[\beta m^{t}+(1-\beta)\tilde{g}_t] \\ = \tilde{\theta}^{t-1} - \eta \tilde{m}^t$

当初始值 $m^0 =0$ 时， $\tilde{\theta}^0 =\theta^0$ ，当收敛时 $m^\infty =0$ ， $\tilde{\theta}^\infty =\theta^\infty$ ，所以 $\tilde{\theta}, \; \theta$ 等价。

整理得 $\left\{ \begin{matrix} \tilde{g}_t = \bigtriangledown _{\tilde{\theta}^{t-1}}{f(\tilde{\theta}^{t-1})} \\ m^t = \beta m^{t-1} + (1-\beta) \tilde{g}_t \\ \tilde{m}^t = \beta m^{t}+(1-\beta)\tilde{g}_t=\beta^2 m^{t-1}+(1-\beta^2)\tilde{g}_t \\ \tilde{\theta}^{t} = \tilde{\theta}^{t-1} -\eta \tilde{m}^{t} \end{matrix}\right.$ ；至此nesterov-Momentum公式完毕。

但是为什么nesterov-Momentum号称加速版Momentum、比Momentum优化收敛要快呢？

根据前面的公式可以看到，相比于Momentum的更新量 $\beta m^{t-1}+(1-\beta){g}_t$ ，每次的参数更新量 $\beta^2 m^{t-1}+(1-\beta^2)\tilde{g}_t$ 允许使用更大 $\beta$ 的来保存更多的历史，而在更新参数时对历史的使用更加的保守。

从另一个角度来看，

由 $\left\{ \begin{matrix} m^t = \beta m^{t-1} + (1-\beta) \tilde{g}_t \\ \tilde{m}_t = \beta m^{t}+(1-\beta)\tilde{g}_t \end{matrix}\right.$ 可得 $\tilde{m}_t - \beta \tilde{m}_{t-1} \\ = \beta(1-\beta) \tilde{g}^{t}+(1-\beta)\tilde{g}_t -\beta(1-\beta) \tilde{g}^{t-1} \\ = (1-\beta)[\tilde{g}_t+\beta (\tilde{g}_t-\tilde{g}_{t-1})] \\ \Rightarrow \tilde{m}^{t} = \beta \tilde{m}^{t-1} + (1-\beta)[\tilde{g}_t+\beta (\tilde{g}_t-\tilde{g}_{t-1})]$

更新方向多加了一个 $\beta (\tilde{g}_t-\tilde{g}_{t-1})$ ，它的直观含义就很明显了：如果这次的梯度比上次的梯度变大了，那么有理由相信它会继续变大下去，那我就把预计要增大的部分提前加进来；如果相比上次变小了，也是类似的情况。

Adam

adam =adaptive learning rate + Momentum= 偏差修正版的RMSProp+偏差修正版的Momentum，其公式如下

$\left\{ \begin{matrix} m^t = \beta_1 m^{t-1} + (1-\beta_1) g_t \\ v^t = \beta_2 v^{t-1} + (1-\beta_2) g_t^2 \\ \tilde{m}^t = m^t/(1-\beta_1^t) \\ \tilde{v}^t = v^t/(1-\beta_2^t) \\ \theta^t = \theta^{t-1} - \frac{\eta}{\sqrt{\tilde{v^t}}+\epsilon} \tilde{m}^t \end{matrix}\right.$

AdaMax

Adam在计算adaptive learning rate时，使用的是平方梯度，也即是l2范数，AdaMax将l2范数变成无穷范数，

$v^t = \beta_2^p v^{t-1} + (1-\beta_2^p ) {|g_t|}^p=(1-\beta_2^p ) \sum_{i=1}^{t}{\beta_2^{p(t-i)}{|g_i|}^p} \\ \Rightarrow u^t = \lim_{p \to \infty }(v^t)^{1/p} = \lim_{p \to \infty }((1-\beta_2^p ) \sum_{i=1}^{t}{\beta_2^{p(t-i)}{|g_i|}^p})^{1/p} \\ = max ({\beta_2^{t-1}{|g_1|},{\beta_2^{t-2}{|g_2|},...,{\beta_2{|g_{t-1}|},|g_t|) \\ = max (\beta_2 u^{t-1},|g_t|)$

$\left\{ \begin{matrix} m^t = \beta_1 m^{t-1} + (1-\beta_1) g_t \\ \tilde{m}^t = m^t/(1-\beta_1^t) \\ u^t =max(\beta_2u_{t-1}, |g_t|) \\ \theta^t = \theta^{t-1} - \frac{\eta}{u_t} \tilde{m}^t \end{matrix}\right.$

Nadam

Nadam=升级版的Adam=adaptive learning rate + nesterov-Momentum。

一般而言，在想使用带动量的RMSprop，或者Adam的地方，大多可以使用Nadam取得更好的效果。

由于nesterov-Momentum方法中涉及到变量替换，无法直接应用到Adam中，先对Adam的参数更新公式进行变换，

$\theta^t = \theta^{t-1} - \frac{\eta}{\sqrt{{\tilde{v}^t}}+\epsilon}\tilde{m}^t \\ = \theta^{t-1} - \frac{\eta}{(\sqrt{{\tilde{v}^t}}+\epsilon)} \beta_1{m}^{t-1}/(1-\beta_1^{t})-\frac{\eta}{(\sqrt{{\tilde{v}^t}}+\epsilon)} (1-\beta_1)g_t/(1-\beta_1^{t}) \\ \approx (\theta^{t-1} - \frac{\eta}{\sqrt{\tilde{v}^{t-1}}+\epsilon} \beta_1{m}^{t-1}/(1-\beta_1^{t}))-\frac{\eta}{(\sqrt{\tilde{v}^t}+\epsilon)} (1-\beta_1)g_t/(1-\beta_1^{t}) \\ = \tilde{\theta}^{t-1} -\frac{\eta}{(\sqrt{\tilde{v}^t}+\epsilon)} (1-\beta_1)g_t/(1-\beta_1^{t})$

类似于nesterov-Momentum方法那样进行梯度替换和变量替换：

$\tilde{\theta}^{t} = \theta^{t} - \frac{\eta}{\sqrt{\tilde{v}^{t}}+\epsilon} \beta_1{m}^{t}/(1-\beta_1^{t+1}) \\ = \tilde{\theta}^{t-1} -\frac{\eta}{(\sqrt{\tilde{v}^t}+\epsilon)} (1-\beta_1)\tilde{g}_t/(1-\beta_1^{t}) - \frac{\eta}{\sqrt{\tilde{v}^{t}}+\epsilon} \beta_1{m}^{t}/(1-\beta_1^{t+1}) \\ = \tilde{\theta}^{t-1} - \frac{\eta}{\sqrt{\tilde{v}^{t}}+\epsilon}[\beta_1{m}^{t}/(1-\beta_1^{t+1})+(1-\beta_1)\tilde{g}_t/(1-\beta_1^{t})]$

经过推导可以得到Nadam的更新公式：

$\left\{ \begin{matrix} m^t = \beta_1 m^{t-1} + (1-\beta_1) g_t \\ v^t = \beta_2 v^{t-1} + (1-\beta_2) g_t^2 \\ \tilde{m}^t = m^t/(1-\beta_1^{t+1}) \\ \tilde{v}^t = v^t/(1-\beta_2^t) \\ \hat{m}^t = \beta_1 \tilde{m}^t + (1-\beta_1)g_t/(1-\beta_1^t) \\ \theta^t = \theta^{t-1} - \frac{\eta}{\sqrt{\tilde{v^t}}+\epsilon} \hat{m}^t \end{matrix}\right.$