吴恩达机器学习第二章学习笔记_机器学习吴恩达学习笔记第二章-优快云博客

本文链接：https://blog.youkuaiyun.com/yiwanhaomeng/article/details/104006626

本文深入解析了单变量线性回归模型，包括输入输出变量定义、假设函数、代价函数及其作用，详细阐述了梯度下降算法原理，通过数学公式展示了如何找到参数θ的最佳值，实现模型的优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

单变量线性回归（linear regression with one variable）

$x^{(i)}$ ：输入变量
$y^{(i)}$ ：输出变量
$x^{(i)},y^{(i)})$ ：训练范例
$m$ ：训练样本的数量
$h$ (hypothesis)：假设函数 $hθ(x)=θ0+θ1xh_\theta^{(x)}=\theta_0+\theta_1x$ （未知量为x）

代价函数（cost function）

$J(θ0,θ1)=12m∑i=1m(hθ(x(i))−y(i))2J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta^{(x^{(i)})}-y^{(i)})^2$
代价函数可以衡量假设函数的精度。
$J(θ0,θ1)J(\theta_0,\theta_1)$ 取值最小，假设函数精度最高。（未知量为 $θ0,θ1\theta_0,\theta_1$ ）这个过程可以称之为最小化（minimize）
在学习的时候你可能也会疑惑为什么分母不是m而是2m？这是因为无论是m还是2m，最终 $θ\theta$ 的最优值是相同的，这里取2m，仅仅是为了下面梯度求导时能消去分母的2，让计算更方便。

梯度下降算法（gradient descent）

$α\alpha$ ：学习速率（恒定的正数，不能过大也不能过小）
$θj:=θj−α∂J(θ0,θ1)∂θj\theta_j:=\theta_j-\alpha\frac{\partial{J(\theta_0,\theta_1)}}{\partial\theta_j}$ （算法主要公式）
$: =$ 赋值语句（将右边的值赋给左边）
1： $temp0:=θ0−α∂J(θ0,θ1)∂θ0temp0:=\theta_0-\alpha\frac{\partial{J(\theta_0,\theta_1)}}{\partial\theta_0}$
2： $temp1:=θ1−α∂J(θ0,θ1)∂θ1temp1:=\theta_1-\alpha\frac{\partial{J(\theta_0,\theta_1)}}{\partial\theta_1}$
3： $θ0:=θ0−α∂J(θ0,θ1)∂θ0\theta_0:=\theta_0-\alpha\frac{\partial{J(\theta_0,\theta_1)}}{\partial\theta_0}$
4： $θ1:=θ1−α∂J(θ0,θ1)∂θ1\theta_1:=\theta_1-\alpha\frac{\partial{J(\theta_0,\theta_1)}}{\partial\theta_1}$
在使用该算法时， $θ0,θ1\theta_0,\theta_1$ 要同时更新（即严格遵守以上四步顺序）重复直至收敛

为什么梯度下降算法能找到局部最优点（ $θ0,θ1\theta_0,\theta_1$ ）?

当 $θ0=0\theta_0=0$ 时，算法公式为： $θ1:=θ1−αdJdθ\theta_1:=\theta_1-\alpha\frac{\mathrm{d}{J}}{\mathrm{d}\theta}$
当 $θ1\theta_1$ 选在最优点右侧时，图像如下所示：
在这里插入图片描述
（ps： $∂J∂θ\frac{\partial{J}}{\partial\theta}$ 与 $dJdθ\frac{\mathrm{d}{J}}{\mathrm{d}\theta}$ 并没有本质不同，只是参数数量不同时选用不同的符号而已）
$θ1\theta_1$ 处的斜率是正数， $α\alpha$ 同样是正数， $θ1−dJdθ\theta_1-\frac{\mathrm{d}{J}}{\mathrm{d}\theta}$ 数值会越来越小，所以会越来越接近最优点。
当 $θ1\theta_1$ 选在最优点左侧时，图像如下所示：
在这里插入图片描述
$θ1\theta_1$ 的斜率是负数， $α\alpha$ 是正数， $θ1−dJdθ\theta_1-\frac{\mathrm{d}{J}}{\mathrm{d}\theta}$ 数值会越来越大，所以会越来越接近最优点。
同理， $θ0\theta_0$ 不等于0时，该算法同样能一步步到达局部最优点。

为什么 $α\alpha$ 的是定值？

因为 $dJdθ\frac{\mathrm{d}{J}}{\mathrm{d}\theta}$ 的值会改变， $dJdθ\frac{\mathrm{d}{J}}{\mathrm{d}\theta}$ 的绝对值会越来越小，直至 $dJdθ=0\frac{\mathrm{d}{J}}{\mathrm{d}\theta}=0$ ， $θ1\theta_1$ 到达最优点。

线性回归的梯度下降算法

由假设函数，代价函数，梯度求导算法联立，可得线性回归的梯度求导算法的总公式：
$temp0:=θ0−αm∑i=1m(θ0+θ1x(i)−y(i))temp0:=\theta_0-\frac{\alpha}{m}\sum_{i=1}^{m}(\theta_0+\theta_1x^{(i)}-y^{(i)})$
$temp1:=θ1−αm∑i=1m(θ0+θ1x(i)−y(i))x(i)temp1:=\theta_1-\frac{\alpha}{m}\sum_{i=1}^{m}(\theta_0+\theta_1x^{(i)}-y^{(i)})x^{(i)}$
$θ0:=temp0\theta_0:=temp0$
$θ1:=temp1\theta_1:=temp1$