Adam优化器偏差矫正的理解

本文探讨了Adam优化器的偏差矫正原理,详细解析了优化器的公式,特别是偏差校正部分。通过分析论文中的推导过程,解释了在第一次迭代时如何从初始状态推导出偏差矫正的公式,并对相关数学操作进行了说明。

1、adam优化器公式

包括动量项和过去梯度平方的指数衰减平均

2、偏差校正后的\hat{w_t}\hat{v_t}

3、Adam的参数更新公式

重点来了

第二部偏差矫正的公式是怎么等到的???

论文中的推导

但是不知道v_t是怎么变化来的,下面是我的理解

第一次迭代

v_1=\beta_2v_0+(1-\beta_2)\cdot g_1^2

v_0初始化为0,则v_1=(1-\beta_2)\cdot g_1^2

对上式左右求期望

这里对vt展开了,直接套用期望的性质,那个没有搞懂。。。

这样就推出来那个公式了

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值