【深度学习理论】炼丹术——聊聊Optimization

最新推荐文章于 2025-08-25 10:31:33 发布

原创最新推荐文章于 2025-08-25 10:31:33 发布 · 置顶 · 1k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #机器学习

深度学习理论专栏收录该内容

4 篇文章

订阅专栏

本文深入探讨了机器学习中各种优化器的工作原理，包括SGD、Momentum、AdaGrad、RMSProp和Adam等，详细解释了它们如何帮助模型找到损失函数的最小值，以及各自的优缺点。

1. 前言

机器学习的本质是在一个function set中选择最优的function： $f^*$ （又被称为model）。其中，挑选最优function的过程被转换为求损失函数的最小值问题，损失函数可能的图像如下图所示（在实际问题中损失函数的图像会复杂的多的多的多的多）。

在这里插入图片描述
寻找最优function的过程如下图所示，其中黑线表示可能存在的寻找路径。

2. 问题

假设当前问题的损失函数（loss function）图像如下图所示，因loss function是通过梯度进行参数更新，故当损失函数在更新过程中遇到梯度为0的点的时候会停止更新。
在这里插入图片描述
在一个函数中，有三类点的梯度可能为0：

Global Minima：全局最小值点；
Local Minima：局部最小值点；
Saddle Point：鞍点；

其中Global Minima是我们要找的最优解，Local Minima是次优解，Saddle Point是错误解。

备注：在实际应用中遇到Saddle Point的概率要远远大于遇到Local Minima的概率；

3. Optimizer

3.1 SGD

Stochastic Gradient Descent，又被称为随机梯度下降，运算过程如下图所示：
在这里插入图片描述
假设当前点为 $θ0\theta^0$ ，其中 $η\eta$ 为学习率，则参数更新过程如下：

计算 $θ0\theta^0$ 处的梯度 $∇L(θ0)\nabla L(\theta^0)$ ；
沿 $θ0\theta^0$ 梯度相反的方向更新参数到 $θ1\theta^1$ ， $θ1=θ0−η∇L(θ0)\theta^1=\theta^0-\eta \nabla L(\theta^0)$ ；
重复步骤1和步骤2，直到 $∇L(θt)≈0\nabla L(\theta^t)\approx0$ ；

SGD的缺点：

会“卡”在local minima和saddle point；
在实践中当梯度很小的时候（如：0.0000001）时会停止更新参数（如下图中的点A），如果此时停止更新参数，则模型的效果会很差（欠拟合状态）。此外，在A点附近（梯度比较平缓的区域）参数更新速度很慢；
不稳定，容易受到噪音点的影响；

3.2 Momentum

又称为动量法，该算法是将物理学中的“动量”概念引入到算法中。常用的算法是：SGDM（Stochastic Gradient Descent with Momentum），其运算过程如下：
在这里插入图片描述
假设当前点为： $θ0\theta^0$ ，动量 $v^0=0$ ，则参数更新过程如下；

计算 $θ0\theta^0$ 当前的梯度为 $∇L(θ0)\nabla L(\theta^0)$ ；
动量 $v1=λv0−η∇L(θ0)v^1=\lambda v^0-\eta \nabla L(\theta^0)$ ， $λ\lambda$ 是动量超参数0 ≤ $λ\lambda$ < 1，如果 $λ=0\lambda=0$ 则算法为SGD；
更新参数到 $θ1\theta^1$ ， $θ1=θ0+v1\theta^1=\theta ^0 + v^1$ ；
重复步骤1~3；

备注： $v^i$ 其实是所有历史梯度的加权和：

$v^0=0$ ；
$v1=−η∇L(θ0)v^1=-\eta \nabla L(\theta^0)$ ；
$v2=−λη∇L(θ0)−η∇L(θ1)v^2=-\lambda \eta \nabla L(\theta^0)-\eta \nabla L(\theta^1)$ ；

SGDM的效果图如下所示：
在这里插入图片描述
SGDM相较于SGD的优点：

可以解决saddle point问题；
有一定几率可以跨过local minima；
在梯度平缓的区域更新速度相较于SGD速度更快，可以帮助参数快速朝着极小值方向探索；
在一定程度上使参数的更新方向更加一致，避免了发散；

3.3 AdaGrad

在以上算法中，所有的参数更新都使用相同的学习率。但是不同的参数在各个维度上的“平缓”程度是有差异的。如下图所示，梯度在 $w_1$ 方向上比较平缓（变化比较慢），在 $w_2$ 方向上比较陡峭（变化比较快）。如果使用相同的学习率：

当学习率比较大时，因 $w_2$ 方向上的变化比较大，故很容易跳过该方向上的最优解；
当学习率比较小时，因 $w_1$ 方向上的变化比较平缓，故该方向上的更新速度比较慢，需要比较多的次数才能找到最优解；

AdaGrad算法是根据自变量在每个维度的梯度值的大小来自动调整各个维度上的学习率，从而避免使用同一学习率所带来的问题。计算公式如下：
$\theta _t=\theta _{t-1}-\frac{\eta}{\sqrt{\sum_{i=0}^{i=t-1}(g_{i})^2+\epsilon}}g_{t}$
其中：

$η\eta$ ：学习率；
$g_i$ ：i 时刻的梯度；
$θi\theta_i$ ：i 时刻的参数值；
$ϵ\epsilon$ ：一个很小的值，防止分母为0；
$η∑i=0i=t−1(gi)2+ϵ\frac{\eta}{\sqrt{\sum_{i=0}^{i=t-1}(g_{i})^2+\epsilon}}$ 是一个只会递增的衰减系数；