机器学习中的优化算法总结

最新推荐文章于 2025-04-07 07:15:00 发布

原创最新推荐文章于 2025-04-07 07:15:00 发布 · 503 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#优化 #深度学习 #梯度下降算法

深度学习专栏收录该内容

1 篇文章

订阅专栏

1 梯度下降算法理论分析

1.1 相关介绍

1.1.1 批量梯度下降

使用整个数据集的优化算法被称为批量（batch）或确定性（deterministic）梯度算法，因为它们会在一个大批量中同时处理所有样本。通常，术语“批量梯度下降”指使用全部训练集，而术语“批量”单独出现时指一组样本。

1.1.2 随机梯度下降

每次只使用单个样本的优化算法被称为随机（stochastic）或者在线（online）算法。术语“在线”通常是指从连续产生样本的数据流中抽取样本的情况，而不是从一个固定大小的训练集中遍历多次采样的情况。

1.1.2 小批量随机梯度下降

大多数深度学习的算法介于以上两者之间，使用一个以上而又不是全部的训练样本。传统上，这些会被称为小批量随机（minibatch stochastic）方法，现在通常将它们简单地称为随机（stochastic）方法。

1.2 迭代步的推导

考虑如下优化问题，其中x是模型的参数，

min w \in R n f (w) = 1 n \sum i = 1 n f i (w)

$\begin{equation*} \min_{w \in R^n} f(w)=\frac{1}{n}\sum_{i=1}^{n}f_i(w) \end{equation*}$
对f(x)在

w=w(k) w = w ( k ) $w=w^{(k)}$ 处做二阶泰勒展开，并假设

∇2f(w(k))≈1α(k)I ∇ 2 f ( w ( k ) ) ≈ 1 α ( k ) I $\nabla^2 f(w^{(k)}) \approx \frac{1}{\alpha^{(k)}}I$ ，

w (k + 1) = arg min w f (w) = arg min w f (w (k)) + < \nabla f (w (k)), w - w (k) > + 1 2 (w - w (k)) T \nabla 2 f (w (k)) (w - w (k)) = arg min w f (w (k)) + < \nabla f (w (k)), w - w (k) > + 1 2 α ( k ) | | w - w (k) | | 22 = arg min x < \nabla f (w (k)), w > + 1 2 α ( k ) | | w - w (k) | | 22 = arg min w F (w)

$\begin{equation*} \begin{split} w^{(k+1)} & =\arg \min_w{f(w)} \\ & =\arg \min_w{f(w^{(k)}) + <\nabla f(w^{(k)}), w - w^{(k)}> + \frac{1}{2} (w - w^{(k)})^T \nabla^2 f(w^{(k)}) (w - w^{(k)})} \\ & =\arg \min_w{f(w^{(k)}) + <\nabla f(w^{(k)}), w - w^{(k)}> + \frac{1}{2\alpha^{(k)}} ||w - w^{(k)}||_2^2} \\ & =\arg \min_x{ <\nabla f(w^{(k)}), w> + \frac{1}{2\alpha^{(k)}} ||w - w^{(k)}||_2^2 } \\ & =\arg \min_w{F(w)} \end{split} \end{equation*}$
令

∂F(w)∂w=0 ∂ F ( w ) ∂ w = 0 $\frac{\partial F(w)}{\partial w}=0$ ，即

\nabla f (w (k)) + 1 α ( k ) (w - w (k)) = 0

$\begin{equation*} \nabla f(w^{(k)}) + \frac{1}{\alpha^{(k)}} (w-w^{(k)}) = 0 \end{equation*}$
可得

w = w (k) - α (k) \nabla f (w (k))

$\begin{equation*} w = w^{(k)} - \alpha^{(k)} \nabla f(w^{(k)}) \end{equation*}$
所以

w (k + 1) = w (k) - α (k) \nabla f (w (k))

$\begin{equation*} w^{(k+1)} = w^{(k)} - \alpha^{(k)} \nabla f(w^{(k)}) \end{equation*}$
这就是梯度下降算法的迭代步，其中

α(k) α ( k ) $\alpha^{(k)}$ 是第k步的步长。
同理，如果不假设

∇2f(w(k))≈1α(k)I ∇ 2 f ( w ( k ) ) ≈ 1 α ( k ) I $\nabla^2 f(w^{(k)}) \approx \frac{1}{\alpha^{(k)}}I$ ，则推导出牛顿法的迭代步如下：

w (k + 1) = w (k) - (\nabla 2 f (w (k))) - 1 \nabla f (w (k)) = w (k) - H (k) - 1 g (k)

$\begin{equation*} \begin{split} w^{(k+1)} & = w^{(k)} - (\nabla^2 f(w^{(k)}))^{-1} \nabla f(w^{(k)}) \\ & = w^{(k)} - {H^{(k)}}^{-1}g^{(k)} \end{split} \end{equation*}$

2 梯度算法实现

2.1 基本算法

2.1.1 随机梯度下降

更新规则如下：

θ \leftarrow θ - ϵ \nabla θ (1 m \sum i = 1 m L (f (x (i); θ), y (i)))

$\begin{equation*} \theta \gets \theta - \epsilon \nabla_\theta(\frac{1}{m}\sum_{i=1}^{m}L(f(x^{(i)};\theta), y^{(i)})) \end{equation*}$

2.1.2 动量

初始化 $v=0$ ，更新规则如下：

v \leftarrow α v - ϵ \nabla θ (1 m \sum i = 1 m L (f (x (i); θ), y (i))) θ \leftarrow θ + v

$\begin{equation*} \begin{split} & v \gets \alpha v - \epsilon \nabla_\theta(\frac{1}{m}\sum_{i=1}^{m}L(f(x^{(i)};\theta), y^{(i)})) \\ & \theta \gets \theta + v \end{split} \end{equation*}$
动量方法（Polyak, 1964）引入了变量v充当速度角色，速度v积累了梯度元素

∇θ(1m∑mi=1L(f(x(i);θ),y(i))) ∇ θ ( 1 m ∑ i = 1 m L ( f ( x ( i ) ; θ ) , y ( i ) ) ) $\nabla_\theta(\frac{1}{m}\sum_{i=1}^{m}L(f(x^{(i)};\theta), y^{(i)}))$ ，

α α $\alpha$ 越大，之前梯度对现在方向的影响也越大。动量的主要目的是主要解决两个问题：

Hessian矩阵的病态条件（更新一步之后loss并没有减小）
随机梯度的方差（随机梯度和全梯度之间有偏差）

2.1.3 Nesterov动量

受Nesterov加速梯度算法（Nesterov, 1983, 2004）启发，Sutskever et al.(2013)提出了动量算法的一个变种。这种情况的更新规则如下：

v \leftarrow α v - ϵ \nabla θ (1 m \sum i = 1 m L (f (x (i); θ + α v), y (i))) θ \leftarrow θ + v

$\begin{equation*} \begin{split} & v \gets \alpha v - \epsilon\nabla_\theta(\frac{1}{m}\sum_{i=1}^{m}L(f(x^{(i)};\theta + \alpha v), y^{(i)})) \\ & \theta \gets \theta + v \end{split} \end{equation*}$
Nesterov动量和标准动量之间的区别体现在梯度计算上。Nesterov动量中，梯度计算在施加当前速度之后。因此，Nesterov动量可以解释为往标准动量方法中添加了一个校正因子。

2.2 自适应学习率算法

最近提出一些增量（或者基于小批量）的算法来自适应模型参数的学习率。它们的思想都是，为每个参数设置不同的学习率，在整个学习过程中自适应这些学习率。

2.2.1 AdaGrad

Adagrad算法（Duchi et al., 2011）独立地适应所有模型参数的学习率。效果是在参数空间中更为平缓的倾斜方向会取得更大的进步。在凸优化背景下表现很好。更新规则如下：

计算梯度： $g \gets \frac{1}{m}\sum_{i=1}^{m}L(f(x^{(i)};\theta + \alpha v)$
累积平方梯度： $r \gets r + g \odot g$
更新： $\theta \gets \theta - \frac{\epsilon}{\delta + \sqrt{r}} \odot g$

2.2.2 RMSProp

RMSProp算法（Hinton,2012）修改AdaGrad以在非凸设定下效果更好。AdaGrad根据平方梯度的整个历史收缩学习率，经验上已经发现，对于训练深度神经网络而言，从训练开始时积累梯度平方会导致有效学习率过早或过量的减少。RMSProp使用指数衰减平均以丢弃遥远过去的历史，使其能够在最后找到凸碗状结构后快速收敛，它就像一个初始化于该碗状结构的AdaGrad算法实例。更新规则如下：

计算梯度： $g \gets \frac{1}{m}\sum_{i=1}^{m}L(f(x^{(i)};\theta + \alpha v)$
累积平方梯度： $r \gets \rho r + (1-\rho)g \odot g$
更新： $\theta \gets \theta - \frac{\epsilon}{\delta + \sqrt{r}} \odot g$

2.2.3 AdaDelta

Adadelta算法（Zeiler, 2012）也像RMSProp一样，使用了小批量随机梯度按元素平方的指数加权移动平均变量 $r$ ，两位作者在互不知道的情况下都想到了这样的方法。AdaDelta跟RMSProp不同的地方在于，使用累积更新量代替学习率，因此它的主要优势在于不需要选取学习率。更新规则如下：

计算梯度：
- 累积平方梯度： $r \gets \rho r + (1-\rho)g \odot g$
- 计算更新： $\Delta x \gets -\frac{\sqrt{d}}{\sqrt{r}} \odot g$
- 累积更新量： $d \gets \rho d + (1-\rho)\Delta x$
- 应用更新： $\theta \gets \theta + \Delta x$
- 2.2.4 Adam
  
  Adam（Kingma and Ba, 2014）这个名字派生自短语“adaptive moments”，可以看作RMSProp和Moments的结合。更新规则如下：
  1. 计算梯度： $g \gets \frac{1}{m}\sum_{i=1}^{m}L(f(x^{(i)};\theta + \alpha v)$
  2. 更新有偏一阶矩估计： $s \gets \rho_1 s + (1-\rho_1)g$
  3. 更新有偏二阶矩估计： $r \gets \rho_2 r + (1-\rho_2)g \odot g$
  4. 修正一阶矩的偏差： $\hat{s} \gets \frac{s}{1-\rho_1^t}$
  5. 修正二阶矩的偏差： $\hat{r} \gets \frac{r}{1-\rho_2^t}$
  6. 更新： $\theta \gets \theta - \epsilon \frac{\hat{s}}{\delta + \sqrt{\hat{r}}}$
  2.3 随机梯度算法
  
  2.3.1 SAG
  
  SAG方法（Le Roux et al., 2012）更新规则如下：
  
  w(k+1)←w(k)−α(k)(1n(∇fsk(w(k))−∇fsk(w(k−1)))+1n∑i=1n∇fi(w(k−1)))
  
  其中， sk 是从 1,2,...,n 均匀采样的值。
  该方法的缺点是需要为每个样本存储最新的梯度；更新的梯度是全梯度的有偏估计，证明见下一节。
  
  2.3.2 SAGA
  
  SAGA方法（Defazio et al., 2014）是SAG方法的无偏版本，更新规则如下：
  
  w(k+1)←w(k)−α(k)(∇fsk(w(k))−∇fsk(w(k−1))+1n∑i=1n∇fi(w(k−1)))
  
  其中， sk 是从 1,2,...,n 均匀采样的值。
  在这个方法中，
  
  E(Δw)=E(∇fsk(w(k))−∇fsk(w(k−1))+1n∑i=1n∇fi(w(k−1)))=∇f(w(k))−∇f(w(k−1))+∇f(w(k−1))=∇f(w(k))
  
  所以更新量是 ∇f(w(k)) 的无偏估计。
  
  2.3.3 SVRG
  
  SVRG方法（Johnson et al., 2013）不需要为每个样本存储一个最新梯度。