Optimizier（AdaGrad、RMSProp、Momentum、Adam）

最新推荐文章于 2024-10-02 12:55:06 发布

莱尼布鲁斯

最新推荐文章于 2024-10-02 12:55:06 发布

阅读量389

点赞数 2

分类专栏： Machine Learning\Deep Learning 文章标签： python 深度学习机器学习人工智能

本文链接：https://blog.youkuaiyun.com/qq_45769877/article/details/114003145

版权

Machine Learning\Deep Learning 专栏收录该内容

21 篇文章

订阅专栏

本文详细介绍了AdaGrad、RMSProp、Momentum和Adam算法，探讨了它们在梯度更新中的应用，尤其是Adam算法如何结合RMSProp的动量项和bias correction，以有效避免局部极小值问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

AdaGrad
RMSProp
Momentum
- - update with Momentum
  - local minima in deep learning
Adam
- - Adam algorithm
  - why Bias Correction

AdaGrad

$\theta^{t+1}=\theta^t-\frac{\eta}{\sigma^t}g^t\\ \sigma^t=\sqrt{\sum\limits_{i=0}^t(g^i)^2}$

learning rate设置为一个固定的初始值 $\eta$ 除以一个变化的值 $\sigma$
$\sigma$ 是对过程中所有梯度的平方和求根

Adagrad的特性：(Review Gradient Descent)

① 步伐逐步平坦

②考虑历史梯度，造成反差效果

③估测二次微分值，寻找最优参数更新

RMSProp

$w^{t+1}=w^t-\frac{\eta}{\sigma^t}g^t \\ \sigma^t=\sqrt{\alpha(\sigma^{t-1})^2+(1-\alpha)(g^t)^2}$

learning rate设置为一个固定的初始值 $\eta$ 除以一个修正值 $\sigma$
$\sigma$ 是对上一个 $\sigma$ 和当前梯度 $g$ 的平方加权后求根（特别的， $\sigma^0$ 取 $g^0$ 即可）

RMSProp和Adagrad的区别

Adagrad的 $\sigma$ 是对过程中所有的gradient取平方和求根，也就是说Adagrad考虑的是整个过程平均的gradient信息；RMSProp跟Adagrad不同之处在于，虽然RMSProp也是对所有的gradient进行平方和求根，但是它用权值 $\alpha$ 来调整对历史gradient还是当下gradient的偏重，如果你把α的值设的小一点，意思就是你更倾向于相信新的gradient所告诉你的error surface的平滑或陡峭程度，而比较无视于旧的gradient所提供给你的信息。同时随着迭代次数的增加，比较久远的gradient的影响逐步消减，这也更符合常理。

Momentum

通常训练时梯度下降可能卡在local minima、saddle point或plateau的地方，在这三种情况下，对参数的偏微分等于零，或是趋于零而使得训练速度缓慢，可能被误作为最优model而停止训练。

stuck at local minima、saddle point or plateau

momentum

Momentum要做的事就是在梯度下降时，加上一个惯性，使参数能够冲过local minima、saddle point或plateau达到global minima。

update with Momentum

假设每次更新用 $m$ 表示momentum（包括方向和大小）
$update\ m$ ：
$m^{t+1}=\alpha m^t+(1-\alpha )g^t$
$update\ \theta$ ：
$\theta^{t+1}=\theta^t-\eta m^{t+1}$

$m^{t+1}$ 的更新同时考虑了前一次更新 $v^{t}$ ，又考虑了参数在当前点的梯度 $g^t$ ， $\alpha$ 控制了上一次更新对这次更新的影响程度。 $m$ 的含义既包括上一次更新的方向，又包括上一次更新的距离。

local minima in deep learning

Yann LeCun在07年的时候提出，他说不必太担心local minima的问题，出现local minima的条件是，它必须在每一个dimension都是山谷的低谷形状。假设每个dimension低谷出现的概率为p，由于我们的network有非常非常多的参数，这里假设有1000个参数，local minima出现的几率是 $p^{1000}$ ，network越复杂，参数越多，这件事发生的概率就越低。

Adam

Adam就是RMSProp+Momentum
在这里插入图片描述

Adam algorithm

初始化Momentum $m_0=0$
初始化学习率修正值 $v_0=0$

迭代过程：

计算gradient $g_t$
$g_t=\nabla _{\theta}f_t(\theta_{t-1})$
上一次移动的momentum $m_{t-1}$ 和gradient $g_t$ 加权求和得到 $m_t$ ——Momentum
$m_t=\beta_1 m_{t-1}+(1-\beta_1) g_t$
上一次计算的 $v_{t-1}$ 和gradient $g_t$ 的平方加权求和得到的 $v_t$ ——RMSProp
$v_t=\beta_2 v_{t-1}+(1-\beta_2) g_t^2$
修正初始几步对 $m_0$ 和 $v_0$ 的偏重——Bias Correction
$\hat{m}_t=\frac{m_t}{1-\beta_1^t} \\ \hat{v}_t=\frac{v_t}{1-\beta_2^t}$
以momentum作为梯度 $\times$ RMSProp normalize之后的learnling rate，update参数 $\theta$
$\theta_t=\theta_{t-1}-\frac{\alpha }{\sqrt{\hat{v}_t}+\epsilon}\cdot \hat{m}_t$

why Bias Correction

在这里插入图片描述