【机器学习】—— 各种梯度下降的变形momentum,adagrad,rmsprop,adam分别解决了什么问题

本文详细介绍了机器学习中常用的梯度下降法变形:Momentum能帮助跳出局部最优,平滑下降过程;Adagrad根据历史梯度自适应调整学习率;RMSProp缓解了Adagrad后期学习率过小的问题;Adam结合了Momentum和RMSProp的优点,进一步改善了训练效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Momentum

Momentum的公式表达

设时间步 t t t的自变量为 x t \boldsymbol{x}_t xt,学习率为 η t \eta_t ηt。在 t 0 t_0 t0时刻,速度变量 v 0 = 0 \boldsymbol{v}_0=0 v0=0,在时间步 t > 0 t>0 t>0,Momentum关于速度变量 v t = 0 \boldsymbol{v}_t=0 vt=0和自变量 θ t \boldsymbol{\theta}_t θt的迭代方式为:
v t ← γ v t − 1 + η t g t , θ t ← θ t − 1 − v t , \begin{aligned} \boldsymbol{v}_t &\leftarrow \gamma \boldsymbol{v}_{t-1} + \eta_t \boldsymbol{g}_t, \\ \boldsymbol{\theta}_t &\leftarrow \boldsymbol{\theta}_{t-1} - \boldsymbol{v}_t, \end{aligned} vtθtγvt1+ηtgt,θt1vt,
其中 γ \gamma γ 为超参数,满足 0 ≤ γ &lt; 1 0 \leq \gamma &lt; 1 0γ<1
从上面的式子我们可以看出

  • 速度变量 v t \boldsymbol{v}_t vt作用等价于梯度
  • 速度变量 v t \boldsymbol{v}_t vt的大小与上一个时刻的速度变量 v t − 1 \boldsymbol{v}_{t-1} v
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值