线性回归最小二乘法求

最新推荐文章于 2025-01-24 23:29:16 发布

xzccfzy

最新推荐文章于 2025-01-24 23:29:16 发布

阅读量562

点赞数

分类专栏：机器学习文章标签：线性回归最小二乘法

本文链接：https://blog.youkuaiyun.com/xzccfzy/article/details/100031396

版权

机器学习专栏收录该内容

14 篇文章

订阅专栏

这篇博客介绍了线性回归作为监督学习中的回归算法，重点讲述了线性回归模型和损失函数，特别是通过平方损失函数和最小二乘法求解回归方程的过程。文章详细推导了如何对参数a和b进行求导，以找到使误差最小的直线方程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

回归是另一类重要的监督学习算法。与分类不同的是，回归问题的目标是通过对训练样本的学习，得到从样本特征到样本标签之间的映射，且样本标签是连续值。
线性回归的问题中，目标值与特征之间存在线性相关的关系
线性回归模型
- 对于线性回归算法，希望从训练数据中学习到线性回归方程，即： $\sum_{i=1}^{n}w_{i}x_{i}$
  其中，b是偏置， $w_{i}$ 是回归系数，另 $x_{0} = 1$ 则回归方程为： $\sum_{i=0}^{n}w_{i}x_{i}$
损失函数

线性回归的损失函数可以是绝对损失 $|y-\hat{y}|$ 或者平方损失 $(y-\hat{y})^2$ .
最小二乘法求解以及推导
看了书上的矩阵方式，不太懂，就用一般的方式求吧。
- 假设最终的直线方程为 $y = a x + b$ ,存在一个数据集 $\left \{ (x_{1},y_{1}),(x_{2},y_{2}, ......,(x_{n},y_{n}))\right \}$ 。则对于数据集中的点 $x_{i},y_{i})$ 的回归误差为 $d = y_{i} - ax_{i} - b$ 。那么对于整个数据集来说，误差为： $\sum_{i=1}^{n}(y_{i} - ax_{i} - b)^2$
  所以，只要使得整个数据及上的误差尽可能的小，则回归方程拟合的越好。所以取极值对a,b求导。
- 误差函数对a求导： $\frac{\vartheta }{\vartheta a}D = \sum_{i=1}^{n}2(y_i - ax_{i}- b) * (-x_{i})$
- 误差函数对b求导： $\frac{\vartheta }{\vartheta b}D = \sum_{i=1}^{n}2(y_i - ax_{i} - b) * (-1)$
- 令 $\frac{\vartheta }{\vartheta b}D = 0$ 得： $\bar{y} - a\bar{x}$
- 令 $\frac{\vartheta }{\vartheta a}D = 0$ 并将 $\bar{y} - a\bar{x}$ 代入得到: $\frac{\sum_{i=1}^{n}x_{i}y_{i} - n\bar{x}\bar{y}}{\sum_{i=1}^{n}x_{i}^{2} -n\bar{x} }$
  因为： $\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y}) = \sum_{i=1}^{n}x_{i}y_{i} - n\bar{x}\bar{y}$
  $\sum_{i=1}^{n}(x_{i} - \bar{x})^2 = \sum_{i=1}^{n}x_{i}^{2} -n\bar{x}$
  所以： $\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\sum_{i=1}^{n}(x_{i} - \bar{x})^2}$
- 所以根据上述的公式，将数据集的数据代入即可求得a b参数。