Adam优化器偏差矫正的理解

最新推荐文章于 2025-11-02 15:04:30 发布

原创最新推荐文章于 2025-11-02 15:04:30 发布 · 5k 阅读

·

6

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#adam #偏差矫正 #优化器

机器学习专栏收录该内容

15 篇文章

订阅专栏

本文探讨了Adam优化器的偏差矫正原理，详细解析了优化器的公式，特别是偏差校正部分。通过分析论文中的推导过程，解释了在第一次迭代时如何从初始状态推导出偏差矫正的公式，并对相关数学操作进行了说明。

1、adam优化器公式

包括动量项和过去梯度平方的指数衰减平均

2、偏差校正后的 $\hat{w_t}$ , $\hat{v_t}$

3、Adam的参数更新公式

重点来了

第二部偏差矫正的公式是怎么等到的？？？

论文中的推导

但是不知道 $v_t$ 是怎么变化来的，下面是我的理解

第一次迭代

$v_1=\beta_2v_0+(1-\beta_2)\cdot g_1^2$

$v_0$ 初始化为0，则 $v_1=(1-\beta_2)\cdot g_1^2$

对上式左右求期望

这里对vt展开了，直接套用期望的性质，那个没有搞懂。。。

这样就推出来那个公式了

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。