简介
上篇我们说到梯度下降公式中新引入了两个概念:学习率、成本函数J的导数,公式回忆
w
(
新
)
=
w
(旧)
−
α
(学习率)
×
∂
∂
w
J
(
w
,
b
)
(成本函数
J
的导数项)
w(新)=w(旧)-α(学习率) × \cfrac{∂}{∂w} J(w,b)(成本函数J的导数项)
w(新)=w(旧)−α(学习率)×∂w∂J(w,b)(成本函数J的导数项)
学习率范围确定
学习率过小
下图为w的成本函数曲线,梯度下降的目标是寻找曲线的最低点,途中黄点为起始点,根据上述公式,若学习率极度的小,也就是每次w(旧)减去的值都非常小,虽然最终也可以找到最低点,但要走好多好多步(淡黄色的点为走的路径,可以看到非常密集)。
学习率过大
相比于学习率过小,学习率过大更恐怖,他会逐渐远离目标值,下图是一个学习率过大的走势图(以标注起点以及步骤),最终的结果会离谷底越来越远
梯度下降的底层逻辑(结合公式版)
下列是一个正常的梯度下降过程,黄点代表每一次的下降最终位置,可以清晰看到下降的趋势是越来缓慢,为什么会出现这样的现象呢?
答:学习率固定,但是每次成本函数J(w)的导数项逐渐变小,导致下降趋势逐渐变缓。那换个角度思考,当走到谷底的时候,点和曲线的切线导数无限趋近于0也就意味着w(新)不会有任何变化,既走到了**局部最小值**
w
(
新
)
=
w
(旧)
−
α
(学习率)
×
∂
∂
w
J
(
w
,
b
)
(成本函数
J
的导数项)
w(新)=w(旧)-α(学习率) × \cfrac{∂}{∂w} J(w,b)(成本函数J的导数项)
w(新)=w(旧)−α(学习率)×∂w∂J(w,b)(成本函数J的导数项)