Adam如何自适应学习率的？

塔楼

已于 2025-03-16 17:11:27 修改

阅读量5.6k

点赞数 6

分类专栏：优化算法文章标签：深度学习机器学习算法

于 2021-10-09 20:39:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_28915885/article/details/120678765

版权

优化算法专栏收录该内容

1 篇文章

订阅专栏

Adam是一种优化算法，通过结合一阶动量和二阶动量来实现自适应学习率调整。它利用指数滑动平均来平滑梯度估计，避免频繁更新的参数受单个异常样本的影响，同时确保稀疏更新的参数能从少量信息中学习。一阶动量mt记录了过去梯度的加权平均，二阶动量vt则考虑了梯度的平方和，动态调整学习率，使得更新更稳定且适应不同参数的特性。这种机制使Adam在深度学习中成为广泛应用的优化器。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Adam是如何做到自适应学习率的？

优化算法统一公式
- 待优化参数： $w_t$ ;
- 优化目标： $f(w_t)$ ;
- 当前参数梯度： $g_t=\nabla{f(w_t)}$ ;
- 一阶动量和二阶动量： $\eta_t=\alpha· m_t/\sqrt{v_t}$ ；
- 统一的更新公式为： $w_{t+1}=w_t-\eta_t$ ；
Adam时如何自适应调整学习率的？
- 首先，介绍SGD和带动量的SGD。SGD的更新公式如下： $w_{t+1}=w_t-\alpha·g_t$ ，相当于 $m_t=g_t$ ， $v_t=I^2$ 。但由于其更新只依赖于当前的数据，使得其难以跳出局部最优。为利用历史的更新方向的趋势，使得其更新方向按照历史的趋势进行，令 $m_t=\beta_1·m_{t-1}+(1-\beta_1)g_t$ ，这样有 $\beta_1$ 比例的方向由历史方向决定，因此 $w_{t+1}=w_t-\alpha·m_t$ ；
- 使用SGD更新参数时，其参数的学习率是对于每一个 $g_t$ 都是相同的，即无论 $g_t$ 中的内容是大还是小，都是采用同样的步长进行更新，但我们希望对经常更新的参数不至于被单个样本影响太大，希望学习缓慢一些，对于偶尔更新的参数，模型了解的信息太少，希望梯度小的学习率大一些，以便于我们能够从少量信息中获取到信息。因此，引入二阶动量 $v_t=\sum_{\tau=1}^{t}g_t^2$ ，将其作为学习率 $\alpha$ 的分母，可以动态调整学习率的大小，得到新的学习率 $\alpha/\sqrt{v_t+\epsilon}$ ，更新频率越大的则学习率越小，更新频率越小的，学习率越大。引入二阶动量的梯度更新法则之后， $v_t$ 可能很快就累积到很大。借鉴 $m_t$ 利用当前时间端前一段时间的梯度信息，使用指数滑动平均，得到 $v_t=\beta_1·v_{t-1}+(1-\beta_1)g_t^2$ ，因此最终引入二阶动量的参数更新公式为： $w_{t+1}=w_t-\alpha·g_t/{\sqrt{v_t+\epsilon}}$ ;
- 结合两个动量的更新就是Adam算法了： $w_{t+1}=w_t-\alpha·m_t/{\sqrt{v_t+\epsilon}}$ ；
  
  从上述可以看出，Adam自适应调整学习率是从二阶动量 $v_t$ 上进行的，目的是为了避免经常更新的参数被单个异常样本影响，同时能够学习到出现较少的样本信息。

参考：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。