梯度下降法精讲-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_43704915/article/details/86619352

梯度下降法详解笔记

梯度下降法 Gradient descent algorithm
在这里插入图片描述
$\theta^{t+1}=\theta^{t}-\alpha • g$
$\alpha$ : 学习效率数字 (learning rate) 用来控制梯度下降时，
函数下降的速度。 $\alpha$ 越大梯度下降越迅速， $\alpha$ 越小下降缓慢。

If $\alpha$ is too small , gradient descent can be slow.
如果 $\alpha$ 太小，梯度下降会非常慢。
If $\alpha$ is too large, gradient descent can overshoot the minimum.
It may fail to converge, or even diverge.
如果 $\alpha$ 太大，可能越过最小值。 $\theta$ 可能无法收敛或者发散。

$如果\alpha太小，梯度下降会非常慢。$
在这里插入图片描述
如果 $\alpha$ 太大，可能越过最小值。 $\theta$ 可能无法收敛或者发散。

$\theta^{t+1}=\theta^{t}-\alpha • g$
$变化\Longrightarrow迭代$
g : 是导数 (梯度) ，每次迭代都会变化。
随着迭代次数的增加，导数g(切线斜率) 会越来越小，
当到达最低点则不需要再另外减少 $\alpha$ 。
As we approach a local minimum,
gradient descent will automatically take smaller steps.
So, no need to decrease $\alpha$ over time.

梯度下降流程

1.初始化 $\theta$      $w_{0}...w_{n}$ (初始化n+1个值)

2. while(! $g_{0}...g_{n}$ == 0){ #当函数收敛时， $g_{0}...g_{n}$ == 0
        求 gradient (梯度)
         $\theta^{t+1}=\theta^{t}-\alpha • g$
    }