机器学习基础 - [第一章：单变量线性回归]（6）梯度下降算法（参数学习方法）

最新推荐文章于 2023-06-04 16:00:34 发布

原创最新推荐文章于 2023-06-04 16:00:34 发布 · 305 阅读

0 ·

CC 4.0 BY-SA版权

机器学习算法专栏收录该内容

45 篇文章

订阅专栏

本文详细介绍了梯度下降算法在单变量线性回归中的应用，阐述了核心公式、如何找到代价函数最小值、学习率的影响以及为何固定学习率仍能收敛到局部最优值。内容深入浅出，通过实例解释了梯度下降算法的工作原理。

1、梯度下降算法的核心公式

该公式主要由三部分组成：初始迭代值 $θj\theta_{j}$ 、学习率 $α\alpha$ 、以及偏导数 $∂J(θ0,θ1)∂θj\frac{\partial J(\theta_{0},\theta_{1})}{\partial \theta_{j}}$ ,注意,在这里 $θ0\theta_{0}$ 和 $θ1\theta_{1}$ 是同时被更新的。

2、梯度下降算法如何得到代价函数 $J(θ)J(\theta)$ 的最小值？

假设假设函数 $h(θ)h(\theta)$ 只有一个参数 $θ1\theta_{1}$ ，上图是根据 $θ1\theta_{1}$ 的取值画出的对应损失函数。从图中可以看出，当偏导数为正时， $θ1\theta_{1}$ 的值减小， $J(θ)J(\theta)$ 向局部最小值靠近，当偏导数为负时， $θ1\theta_{1}$ 的值减增大， $J(θ)J(\theta)$ 仍然向局部最小值靠近，所以通过梯度下降 $θ1\theta_{1}$ 总能收敛到局部最小值。

3、学习率的取值对梯度下降算法效率的影响

当学习率取不同值时，梯度下降算法的效率会有不同的结果，如图3所示，：
（1）如果 $α\alpha$ 的值太小，那么 $θ1\theta_{1}$ 每次的变化非常小，需要经过很多次迭代才能收敛到最小值，算法会非常慢；
（2）如果 $α\alpha$ 的值太大，那么 $θ1\theta_{1}$ 每次的变化也会非常大，甚至会发散，无法收敛到最小值。
注意，当 $θ1\theta_{1}$ 收敛到局部最小值时，偏导数为0， $θ1\theta_{1}$ 的值将不再改变。