Deep learning II - II Optimization algorithms - Gradient descent with momentum 动量梯度下降算法

本文介绍了一种改进版的梯度下降算法——动量梯度下降法。该方法通过运用指数加权平均来减少参数更新过程中的震荡,并加速收敛速度。文章详细解释了其工作原理及参数设置。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Gradient descent with momentum 动量梯度下降算法


运用指数加权平均算法,计算梯度的指数加权平均,然后用这个梯度来更新权重。
这里写图片描述

  • 当使用梯度下降时,下降路径可能会和上图蓝色路径相似,不断震荡;所以我们不能用比较大的learning_rate,以防出现如紫色路径一样的diverging。
    这里写图片描述
  • 通过使用指数加权平均,在纵坐标(以上图阐述)方向的来回震荡通过加权之后,会相互抵消而减小;在横坐标方向,因为都是朝向最低点的方向,因此加权平局会叠加而增大;从而得到红色路径(步数更少,速度更快)。
    Vdw=βVdw+(1β)dwVdw=βVdw+(1−β)dw

    Vdb=βVdb+(1β)dbVdb=βVdb+(1−β)db

    w:=wαVdww:=w−αVdw

    b:=bαVdbb:=b−αVdb
  • (1β)dw(1−β)dw(1β)db(1−β)db可以看作是加速度,从而加速梯度下降
  • 实践中,β=0.9β=0.9的效果很不错,可以尝试其他值,不过0.9是一个稳健的数值
  • 初始化Vdw=0, Vdb=0Vdw=0, Vdb=0
  • 在gradient descent with momentum中不使用Bias correctionVdw1βtVdw1−βt,因为通常十次以后,就稳定了。
  • Gradient descent with momentum几乎总是优于没有动量的梯度下降法
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值