学习率为什么要逐渐衰减?

本文探讨了在梯度下降优化过程中,学习率逐渐衰减的原因。初始学习率过大可能导致模型在极小值点附近震荡不收敛,而过小则会使训练过程过于缓慢。因此,随着训练进行,适当降低学习率有助于模型更好地收敛。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

学习率为什么要逐渐衰减?这个问题其实是个很简单的问题,首先回顾一下梯度下降算法的优化原理(batchsize)👇:
在这里插入图片描述

对于Batchsize和公式的理解可以参考上一篇Blog:https://blog.youkuaiyun.com/m0_51339444/article/details/128745611,其中ε是学习率,根据公式不难看出,学习率越大,下降速度越快。我们以下图为例,直观地理解一下梯度下降的过程👇:
在这里插入图片描述
初始点随便选取,因此可能梯度很大,梯度越大,下降越快,因此,梯度下降刚开始会以很快的速度逼近极小值点,但是当逐渐逼近最小值点时,(梯度不是我们人为可以控制的,但是可以通过学习率来控制下降的速率),如果学习率很大,则可能最最小值点附近反复横跳,甚至不收敛,因此应当随着Run time的增大,Learning Rate不断减小,减小的方程可以根据需求自行设定。

附:初始学习率的选取也是十分重要的,不是越大越好,也不是越小越好。下图展示了过大的学习率与过小的学习率造成的问题👇:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

天使Di María

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值