Adam三连问

最新推荐文章于 2025-03-18 15:20:21 发布

原创

最新推荐文章于 2025-03-18 15:20:21 发布 · 530 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#Adam #调参 #深度学习

本文探讨了Adam优化器与L2正则的配合、梯度爆炸问题以及学习率衰减的必要性。Adam在使用L2正则时与SGD不同，不等价于weight decay。尽管理论上Adam不应导致梯度爆炸，但在实际操作中，由于滑动平均的影响，仍可能出现该问题。此外，即使Adam初期能快速收敛，后期仍需学习率衰减以确保稳定收敛。最后，简述了mini batch在深度学习中的作用和无偏估计的概念。

Adam能和L2正则一起使用？

不能。
L2正则在SGD中和weight decay是等价的，但是在Adam中就不等价了。
因为在Adam中，每个参数的梯度的计算和历史梯度相关，不是简单乘上学习率

参考：https://zhuanlan.zhihu.com/p/63982470

Adam能解决梯度爆炸？

不能。
理论上，Adam是不会发生梯度爆炸的问题，因为梯度更新式：
$mt=mt−1⋅β1+gt⋅(1−β1)vt=vt−1⋅β2+gt2⋅(1−β2)mt^=mt/(1−beta1t)vt^=mt/(1−beta2t)gt^=lr⋅mt^vt^ \begin{aligned} m_t &= m_{t-1}\cdot \beta_1 + g_t \cdot (1 - \beta_1)\\ v_t &= v_{t-1}\cdot \beta_2 + g_t^2 \cdot (1 - \beta_2)\\ \hat{m_t} &= m_t / (1-beta_1^t)\\ \hat{v_t} &= m_t / (1-beta_2^t)\\ \hat{g_t} &= lr \cdot \frac{\hat{m_t}}{\sqrt{\hat{v_t}}} \end{aligned}$

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。