最小二乘法---线性回归的求解方法

内容同步至Github Blog

已于 2024-12-11 22:37:35 修改

阅读量2.4k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：数学文章标签：最小二乘法线性回归算法

于 2020-04-18 00:40:32 首次发布

本文链接：https://blog.youkuaiyun.com/Frankgoogle/article/details/105591992

数学专栏收录该内容

2 篇文章

订阅专栏

本文深入探讨了最小二乘法的原理及应用，从一元线性回归出发，逐步推导出参数求解公式，再扩展到多元线性回归的矩阵形式，提供了完整的数学推导过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这几天看书的时候突然注意到了这个经典的优化方法，于是重新推导了一遍，为以后应用做参考。

背景

最小二乘法应该是我接触的最早的优化方法，也是求解线性回归的一种方法。线性回归的主要作用是用拟合的方式，求解两组变量之间的线性关系（当然也可以不是线性的，那就是另外的回归方法了）。也就是把一个系统的输出写成输入的线性组合的形式。而这组线性关系的参数求解方法，就是最小二乘法。

我们从最简单的线性回归开始，即输入和输出都是1维的。此时，最小二乘法也是最简单的。

假设有输入信号 $x = \{x_0, x_1, ..., x_t\}$ ，同时输出信号为 $y = \{y_0, y_1, ..., y_t\}$ ，我们假设输入信号 $x$ 和输出信号 $y$ 之间的关系可以写成如下形式：

$ypre=ax+b(1)y_{pre} = ax+b \tag{1}$

我们需要求解最优的 $a$ 和 $b$ ，这里最优的含义就是，预测的最准确，也就是预测值和真实值的误差最小，即：

$mina,b∑i=0t(yi−axi−b)2(2)arg\, min_{a, b}{\sum_{i=0}^{t}{(y_i-ax_i-b)^2}} \tag{2}$

我们假设误差函数为：

$\sum_{i=0}^{t}{(y_i-ax_i-b)^2} \tag{3}$

$err$ 对 $a$ 和 $b$ 分别求偏导：

$∂err∂a=∑i=0t2(axi+b−yi)∗xi(4)\frac{\partial{err}}{\partial{a}} = \sum_{i=0}^{t}{2(ax_i+b-y_i)*x_i} \tag{4}$

$∂err∂b=∑i=0t2(axi+b−yi)(5)\frac{\partial{err}}{\partial{b}} = \sum_{i=0}^{t}{2(ax_i+b-y_i)} \tag{5}$

根据极值定理，有 $∂err∂a=0\frac{\partial{err}}{\partial{a}}=0$ ，且 $∂err∂b=0\frac{\partial{err}}{\partial{b}}=0$ ，所以有：

$∑i=0t2(axi+b−yi)=0(6)\sum_{i=0}^{t}{2(ax_i+b-y_i)} = 0 \tag{6}$

$∑i=0t(yi−axi)=∑i=0tb(7)\sum_{i=0}^{t}(y_i - ax_i) = \sum_{i=0}^{t}{b} \tag{7}$

$∑i=0tyi−a∗∑i=0txi=(t+1)∗b(8)\sum_{i=0}^{t}{y_i} - a * \sum_{i=0}^{t}{x_i} = (t+1)*b \tag{8}$

$\bar{y} - a\bar{x} \tag{9}$

其中， $yˉ\bar{y}$ 表示 $y$ 的均值， $xˉ\bar{x}$ 表示 $x$ 的均值。将Eq(9)代入Eq(4)，有：

$∑i=0t2(axi+b−yi)∗xi=0(10)\sum_{i=0}^{t}{2(ax_i+b-y_i)*x_i} = 0 \tag{10}$

$∑i=0taxi2+∑i=0tbxi=∑i=0tyixi(11)\sum_{i=0}^{t}{ax_i^2} + \sum_{i=0}^{t}bx_i = \sum_{i=0}^{t}{y_ix_i} \tag{11}$

$a∑i=0txi2+xˉ(yˉ−axˉ)=∑i=0txiyi(12)a\sum_{i=0}^{t}x_i^2 + \bar{x}(\bar{y}-a\bar{x}) = \sum_{i=0}^{t}{x_iy_i} \tag{12}$

$a(∑i=0txi2−xˉ2)=∑i=0txiyi−xˉyˉ(13)a(\sum_{i=0}^{t}{x_i^2 - \bar{x}^2}) = \sum_{i=0}^{t}{x_iy_i}-\bar{x}\bar{y} \tag{13}$

$\frac{\sum_{i=0}^{t}{x_iy_i}-\bar{x}\bar{y}}{\sum_{i=0}^{t}{x_i^2 - \bar{x}^2}} \tag{14}$

所以Eq(14)和Eq(9)就是最简单的最小二乘法的计算方法。

然后我们进一步考虑，如果输入和输出是多维数据，要如何计算。

假设输入信号为 $\in R^{m*t}$ ，输出信号为 $\in R^{n*t}$ ，那么有：

$W_0X+B = WX_1 \tag{15}$

其中 $W0∈Rn∗mW_0 \in R^{n*m}$ 是回归矩阵的系数， $\in R^{1*t}$ 表示常数项，这里可以直接写到 $W$ 矩阵中。 $\in R^{n*(m+1)}$ ， $X1∈R(m+1)∗tX_1 \in R^{(m+1)*t}$
$X_1 = \begin{bmatrix} x_{11} &x_{12} & ... &x_{1t}\\ x_{11} &x_{12} & ... &x_{1t}\\ {\vdots} &{\vdots} &... &{\vdots}\\ x_{m1} &x_{m2} &... &x_{mt}\\ 1 &1 &... &1\\ \end{bmatrix} \tag{16}$