线性模型_梯度下降与直接求解

最新推荐文章于 2025-03-11 22:45:18 发布

原创最新推荐文章于 2025-03-11 22:45:18 发布 · 347 阅读

0 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

4 篇文章

订阅专栏

本文探讨了线性模型的构建与优化，通过最小二乘法构建损失函数，并运用梯度下降法寻找最佳参数，实现对真实数据的精确拟合。

线性模型

用一条线拟合实际数据： $h(θ)=θ0x0+θ1x1+...+θnxnh(\theta)=\theta_{0}x_{0}+\theta_{1}x_{1}+...+\theta_{n}x_{n}$
这里，将 $h(θ)h(\theta)$ 称为假设函数，是对实际值的一种估计，是估计就会有偏差，我们的目标是尽量的找到估计值与实际值之间的误差最小的拟合线，这样可以使用拟合线预测未知数据。

利用最小二乘法构建损失函数

损失函数： $J(θ)=12N∑i=1N(hθ(x(i))−y(i))2J(\theta)=\frac{1}{2N}\sum_{i=1}^{N}(h_{\theta}(x^{(i)})-y^{(i)})^2$

以单变量线性模型为例，下图表示 $θ0=0\theta_{0}=0$ 时，不同的 $θ1\theta_{1}$ 值的拟合线与真实值之间的关系，最好的拟合线是橘色线，即斜率为2.
在这里插入图片描述

当 $θ1=0<2\theta_{1}=0< 2$ （最佳拟合）时，估计值与真实值差距大，损失函数值大
当 $θ1=3>2\theta_{1}=3>2$ （最佳拟合）时，估计值与真实值差距大，损失函数值大
即，损失函数在最佳取值左右两侧都会比较大

损失函数随 $θ\theta$ 的变化情况：

在这里插入图片描述

梯度下降法优化损失函数

梯度下降的方式是在不知道最优参数时，初始化一个参数值，然后不断优化，在找最小值的过程中沿着负梯度（一阶导）的方向下降最快，因此沿着这个方向走。方向确定好，确定向前走的步长（学习率）。

梯度对优化的影响：
- 初始值在最优点右侧时，负梯度<0,步长 $α\alpha$ >0,更新参数时，参数向减小的方向移动。

在这里插入图片描述
- 初始值在最优点左侧时，负梯度>0,步长 $α\alpha$ >0,更新参数时，参数向增加的方向移动。

步长对优化的影响
- 步长 $α\alpha$ 过大,可能造成不收敛，左图
- 步长 $α\alpha$ 过小，优化速度会比较慢

在这里插入图片描述
推广到多变量线性模型，梯度下降对参数的更新：

$θj:=θj−α∂J(θ)∂θj\theta j := \theta j - \alpha \frac{\partial J(\theta)}{\partial \theta j}$
线性模型： $θj:=θj−α1N∑i=1N(hθ(x(i)−y(i))xj(i))\theta j := \theta j - \alpha \frac{1}{N} \sum_{i=1}^{N}(h_{\theta}(x^{(i)}-y^{(i)})x_{j}^{(i)})$
梯度下降对参数的更新要所有参数一起更新。即每轮更新成新的 $hθ(X)h_{\theta}(X)$ ,假设函数中，每个参数都更新，再进行下一轮。