线性回归--最小二乘法、岭回归

最新推荐文章于 2024-04-06 15:13:55 发布

原创最新推荐文章于 2024-04-06 15:13:55 发布 · 1.7k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#线性回归 #最小二乘法 #岭回归 #机器学习

机器学习专栏收录该内容

10 篇文章

订阅专栏

本文详细介绍了线性回归的基本原理，包括最小二乘法的数学推导和概率角度的理解，以及为防止过拟合引入的L1-Lasso和L2-岭回归正则化方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

线性回归

线性回归

线性回归

线性回归作为最简单的数据拟合函数，基本形式也非常简单。
给定由d个属性描述的示例 $x=(x_{1},x_{2},...,x_{d})^T$ ，其中 $x_{i}$ 是x在第i个属性上的取值，线性模型试图学得一个通过属性的线性组合组合来进行结果预测的函数，即 $f(x)=w_{1}x_{1}+w_{2}x_{2}+...+w_{d}x_{d}+b,$ 用向量的形式表达就是： $f(x)=w^Tx+b,$ 这里 $w$ 也是d维列向量， $w=(w_{1},w_{2},...,w_{d})^T.$ 当我们把 $w$ 和 $b$ 确定下来之后，模型显然也就得到了。

最小二乘法

对于刚刚我们求得的线性回归模型，如何衡量 $f (x)$ 和真实 $y$ 之间的差别呢？如果采用均方误差(平方损失)作为模型求解的方法的话，就被叫做“最小二乘法”。
最小二乘法定义如下： $L(w)=\sum_{i=1}^{N}||f(x_{i})-y_{i}||^2=\sum_{i=1}^{N}||w^Tx_{i}-y_{i}||^2=\sum_{i=1}^{N}(w^Tx_{i}-y_{i})^2=(w^TX^T-Y^T)(wX-Y)$
将上式展开，有： $L(w)=(w^TX^T-Y^T)(wX-Y)=w^TX^T-2w^TX^TY+Y^TY$
又因为 $\hat {w}=argminL(w)，$ 为了求出 $w$ ，我们可以对其求偏导： $\frac {\partial L(w)}{\partial w}=2X^TXw-2X^TY=0,$ 解得 $w=(X^TX)^{-1}X^TY$
注意：为了方便求解，上面的推导过程省略了偏置 $b,$ 并且此求解过程只适用于 $X^TX$ 是满秩矩阵或者正定矩阵

概率角度

样本集： $D=\left \{(x_1,y_1),...,(x_N,y_N)\right \}$
$x_i\epsilon R^p,y_i \epsilon R,i=1,2,...,N$
$X=(x_1,x_2,...,x_N)^T=\begin{pmatrix} x_1^T \\ ...\\ x_N ^T \end{pmatrix},Y=\begin{pmatrix} y_1 \\ ...\\ y_N \end{pmatrix}$
最小二成估计的损失函数 $L(w)=\sum_{i=1}^{N}||w^Tx_{i}-y_{i}||^2,$
$\hat {w}=argminL(w)，w=(X^TX)^{-1}X^TY$
在现实情况中，我们的数据都是有噪声的，因此模型的不可能和真实数据百分百拟合。
这里假定噪声是服从高斯分布的，也就是 $\varepsilon \sim N(0,\sigma ^2),$
那么 $y=f(w)+\varepsilon=w^Tx+\varepsilon,y$ 就服从高斯分布 $y|x;w\sim N(w^Tx,\sigma^2)$
利用极大似然估计求解：
在这里插入图片描述

所以通过概率的角度得出的结论也是一样的，也就是最小二乘估计隐藏了一个噪声服从正态分布的假设。
等价于：最小二乘估计等价于噪声服从给正态分布的最大似然估计

正则化：L1-lasso，L2-岭回归

最小二成估计的损失函数 $L(w)=\sum_{i=1}^{N}||w^Tx_{i}-y_{i}||^2,$
$\hat {w}=argminL(w)，\hat w=(X^TX)^{-1}X^TY$

由于现实中样本无法对 $X^TX$ 求逆矩阵，样本数量过少又会有过拟合的风险，因此提出了很多解决方法。常见的解决方法有：1.加数据，2特征选择、特征提取，3.正则化
正则化的框架： $\underset w {argmin}[L(w)+\lambda P(w)]$
具体我们引入两种正则化：
1.L1:Lasso, $P (w) = ∣ ∣ w ∣ ∣$
2.L2:Ridge. $P(w)=||w||^2 _2 -w^T w$ 也就是权值衰减
一范数和二范数。