优化算法 - Adagrad、RMSprop、Adam - 梯度下降 - 自适应学习率

最新推荐文章于 2024-12-01 13:33:45 发布

GoWeiXH

最新推荐文章于 2024-12-01 13:33:45 发布

阅读量4k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：深度学习 (DL) 文章标签：自适应梯度下降 Adagrad RMSprop Adam 自适应学习率

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_37352167/article/details/90273820

深度学习 (DL) 专栏收录该内容

21 篇文章

订阅专栏

为应对稀疏特征训练时参数难更新问题，提出自适应学习率方法。介绍了Adagrad、RMSprop和Adam三种优化算法，Adagrad可自适应更新参数学习速率，但后期学习速率易变小；RMSprop将分母梯度累加换成均方根解决此问题；Adam结合RMSprop和Momentum，收敛较快，对稀疏数据学习效果好。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

优化算法 - Adagrad、RMSprop、Adam - 梯度下降 - 自适应学习率

为了应对稀疏特征在训练过程中参数难以更新的问题，各位大牛们提出了自适应学习率的方法。下面就对这些优化算法进行一个学习总结。

Adagrad

Adagrad 的核心是加入了一个正则化因子，使得数据较为稀疏的特征的梯度变大，在数据较为稠密的特征的梯度减小，对于不同的参数自动改变梯度的大小。

普通 SGD 的更新公式为：

$θ_{t+1}^i = θ_t^i - μ·g_{t,θ^i}$

而在 Adagrad 中加入了正则化因子，更新公式为：

$θ_{t+1}^i = θ_t^i - (\frac{μ}{\sqrt{\sum_{j=1}^{t}g_{j,θ^i}^2+ε}})·g_{t,θ^i}$

其中，

$\sqrt{\sum_{j=1}^{t}g_{j,θ^i}^2+ε}$ 表示对 $θ^i$ 前 $t$ 次迭代的梯度的平方进行求和， $ε$ 表示一个无穷小量，为了防止分母为 0；

$θ_t^i$ 代表第 $i$ 个参数的第 $t$ 次迭代； $g_{t,θ^i}$ 代表参数 $θ_i$ 的第 $t$ 次迭代时的梯度；

此时学习率变为： $\frac{μ}{\sqrt{\sum_{j=1}^{t}g_{j,θ^i}^2+ε}}$ ，我们来看一下它是如何对学习速率进行调整的：

对于数据稀疏的特征来讲，参数每次迭代更新的梯度始终非常小，几乎为 0，那么之前轮次的梯度的和依然很小，当 $μ$ 除以一个很小的数时值会得到放大，那么此时他的学习速率就变大了。

对于数据稠密的特征来讲，参数每次迭代更新的梯度较大，那么之前轮次的梯度的和会较大，当 $μ$ 除以一个较大的数时值会得到缩小，那么此时他的学习速率就变小了。

（这种分母求和的形式实现了退火过程）。

所以他可以对于不同的参数以不同的学习速率进行更新，得到了自适应的效果。

但是它仍然存在问题，分母为前几次的累加和，那么在经过一定次数的迭代后分母的值会变的较大，不管是对于稀疏还是稠密的特征，它们的学习速率都会变得很小，会使得更新速度停滞，不得不提前结束训练。

为了解决这个问题，人们提出了 RMSprop 方法。
RMSprop

值得注意的是，RMSprop 与 AdaDelta 是同一种方法。

对于 Adagrad 的问题，RMSprop 将分母梯度累加的形式替换成了 RMS（Root Mean Square），即均方根。

均方根的增长速度要比梯度累加要慢，所以可以进行更多次的迭代，不至于早早结束训练。

RMSprop 的更新公式为：

$θ_{t+1}^i = θ_t^i - (\frac{μ}{\sqrt{E[g_{t,θ^i}^2]}+ε})·g_{t,θ^i}$

${\sqrt{E[g_{t,θ^i}^2]}+ε}$ 为新的正则化因子。

其中，

$\begin{aligned} E[g_{t,θ^i}^2]=&p·\frac{1}{t-1}·\sum_{j=1}^{t-1}g_{t-1,θ^i}^2+(1-p)·g_{t,θ^i}^2\\ =&p·E[g_{t-1,θ^i}^2]+(1-p)·g_{t,θ^i}^2 \end{aligned}$

当 $p = 0.5$ 时， $E[g_{t,θ^i}^2]$ 为前 $t$ 次梯度的均值。

$E[g_{t,θ^i}^2]$ 这种形式：对变量平方求期望的形式也称为二阶矩（对变量求期望的形式称为一阶矩）。

由此，分母的正则化因子不会过快的增长，所以又可以继续训练了。

从经验上来讲，参数可以如此设定： $ε = 0.001 ， p = 0.9$
Adam

接下来总结一下 Adam 方法，这种方法像是 RMSprop + Momentum。

式子中 $i$ 是为了区别不同的参数 $\theta_i$ .

$m_t^i = \beta_1m_{t-1}^i+(1-\beta_1)g_{t,\theta_i}$

$v_t^i = \beta_2v_{t-1}^i+(1-\beta_2)g_{t,\theta_i}^2$

$m_t^i$ 是一阶矩，是对 $E[g_{t,\theta_i}]$ 的估计，相当于 Momentum；

$v_t^i$ 是二阶矩，是对 $E[g_{t,\theta_i}^2]$ 的估计，相当于 RMSprop；

为了考虑 $m_t^i，v_t^i$ 在 0 初始值的情况，Adam 加入了偏差校正：

$\hat{m_t^i}=\frac{m_t^i}{1-\beta_1^t}$

$\hat{v_t^i}=\frac{v_t^i}{1-\beta_2^t}$

使得 $\hat{m_t^i}，\hat{v_t^i}$ 近似为对 $E[g_{t,\theta_i}]，E[g_{t,\theta_i}^2]$ 的无偏估计。

注意：这里的 $\beta_1^t，\beta_2^t$ 是指 $\beta_1，\beta_2$ 的 $t$ 次方！

最终 Adam 的更新公式为：

$θ_{t+1}^i = θ_t^i - (\frac{μ}{\sqrt{\hat{v_t^i}+ε}})·\hat{m_t^i}$

从经验上来讲，参数可以如此设定： $β_1=0.9，β_2=0.999，ϵ=10^{−8}$

在以上算法对稀疏数据的学习效果较好。

Adam 为最常用的优化算法，收敛较快。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。