学习率&学习率对梯度下降的影响

简介

上篇我们说到梯度下降公式中新引入了两个概念:学习率、成本函数J的导数,公式回忆
w ( 新 ) = w (旧) − α (学习率) × ∂ ∂ w J ( w , b ) (成本函数 J 的导数项) w(新)=w(旧)-α(学习率) × \cfrac{∂}{∂w} J(w,b)(成本函数J的导数项) w()=w(旧)α(学习率)×wJ(w,b)(成本函数J的导数项)

学习率范围确定

学习率过小

下图为w的成本函数曲线,梯度下降的目标是寻找曲线的最低点,途中黄点为起始点,根据上述公式,若学习率极度的小,也就是每次w(旧)减去的值都非常小,虽然最终也可以找到最低点,但要走好多好多步(淡黄色的点为走的路径,可以看到非常密集)。
学习率过小趋势图

学习率过大

相比于学习率过小,学习率过大更恐怖,他会逐渐远离目标值,下图是一个学习率过大的走势图(以标注起点以及步骤),最终的结果会离谷底越来越远
学习率过大趋势图

梯度下降的底层逻辑(结合公式版)

下列是一个正常的梯度下降过程,黄点代表每一次的下降最终位置,可以清晰看到下降的趋势是越来缓慢,为什么会出现这样的现象呢?
答:学习率固定,但是每次成本函数J(w)的导数项逐渐变小,导致下降趋势逐渐变缓。那换个角度思考,当走到谷底的时候,点和曲线的切线导数无限趋近于0也就意味着w(新)不会有任何变化,既走到了**局部最小值**

w ( 新 ) = w (旧) − α (学习率) × ∂ ∂ w J ( w , b ) (成本函数 J 的导数项) w(新)=w(旧)-α(学习率) × \cfrac{∂}{∂w} J(w,b)(成本函数J的导数项) w()=w(旧)α(学习率)×wJ(w,b)(成本函数J的导数项)
正常梯度下降规律

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值