机器学习中的线性模型

最新推荐文章于 2025-06-25 17:12:17 发布

原创最新推荐文章于 2025-06-25 17:12:17 发布 · 1.4k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#线性模型 #岭回归 #LASSO

机器学习笔记专栏收录该内容

13 篇文章

订阅专栏

线性模型是比较基础也比较简单的一类模型，我在前面没有提及，在这篇文章里面介绍一下一些线形的模型。

基本形式

所谓线性模型就是用于预测的模型是线性的，可以写成以下的形式

y^(w, x) = w 1 x 1 + \dots + w d x d + b

$\hat y(w,x) = w_1x_1+\cdots+w_dx_d+b$
其中

w=(w1;w2;⋯;wd) $w = (w_1;w_2;\cdots;w_d)$
在有的地方也有另一种形式,比如

y^(w, x) = w 0 + w 1 x 1 + \dots + w d x d

$\hat y(w,x) = w_0+w_1x_1+\cdots+w_dx_d$
就是相当于把代表斜率的

w $w$ 和

b $b$ 写在了一起，

x=(1,x1,x2,⋯,xd) $x=(1,x_1,x_2,\cdots,x_d)$ ，最后可得

y^=w∗b $\hat y = w*b$

基本最小二乘（Least Sqaures）

基本的最小二乘的形式就是

w * = arg min w ∥ X w - y ∥ 22 (1)

$w^* = \arg \min_w \Vert Xw-y \Vert _2^2 \quad \quad \quad (1)$
就是求出令模型的平方误差最小的

w $w$ 。

对于一维的情况，就是以前在统计学中学习过的最小二乘法，下面介绍包含一维的多元线性回归

对于一个数据集 $D$ 其中有 $m$ 个样本点，每个样本点的维度为 $d$ ，那么我们将这个数据集表示为一个大矩阵

X = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ x 11 x 21 ⋮ x m 1 x 12 x 22 ⋮ x m 2 \dots \dots ⋱ \dots x 1 d x 2 d ⋮ x m d 11 ⋮ 1 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ x T 1 x T 2 ⋮ x T m 11 ⋮ 1 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟

$X = \begin{pmatrix} x_{11} & x_{12} &\dots&x_{1d}&1\\ x_{21} & x_{22} &\dots&x_{2d}&1\\ \vdots &\vdots& \ddots&\vdots& \vdots\\ x_{m1} & x_{m2} &\dots&x_{md}&1\\ \end{pmatrix} = \begin{pmatrix} x_1^T&1\\ x_2^T&1\\ \vdots&\vdots\\ x_m^T &1\\ \end{pmatrix}$
令

Ew=∥Xw−y∥22 $E_w = \Vert Xw-y \Vert _2^2$ ，那么我们求

Ew $E_w$ 对

w $w$ 的偏导数，可得

\partial E w \partial w = 2 X T (X w - y)

$\frac{\partial E_w}{\partial w} = 2X^T( Xw-y)$
当

XTX $X^TX$ 为满秩矩阵或者正定的时候，有

w * = (X T X) - 1 X T y

$w^* = (X^TX)^{-1}X^T y$
这样我们就解决了上面的优化问题，但是有时候

XTX $X^TX$ 不是满秩的就是变量数过多，或者数据量太少的时候，

w $w$ 可以有很多解，这时候需要引入正则化项，通过正则化的归纳偏好来决定

另外基本的最小二乘有个很大的缺点，即使数据集的分布真的是线性的，最后的解受噪声（或者叫离群点）的影响很大。一个相差很大的噪声点可以很大的影响最后的模型，这个跟平均值有点类似。

岭回归（Rige Regression）

对于 $X$ ，如果它的向量之间线性关系比较强，或者不是列满秩，那么 $\vert X^TX \vert \sim 0$ ，也就是矩阵趋于奇异的，那么求 $(X^TX)^{-1}$ 就会有较大的误差，这时候直接的最小二乘对随机误差非常敏感，所以我们在公式(1)中添加正则化项，得到

w * = arg min w （ ∥ X w - y ∥ 22 + α ∥ w ∥ 2 ） (2)

$w^* = \arg \min_w （ \Vert Xw-y \Vert _2^2 +\alpha \Vert w\Vert _2）\quad \quad \quad (2)$
注意正则化项

∥w∥ $\Vert w \Vert$ 用的是2范数，那么这有什么用？
我们求解(2)可以得到

w * = (X T X + α I) - 1 X T y

$w^* = (X^TX+ \alpha I)^{-1}X^T y$

XTX+αI $X^TX+ \alpha I$ 能够一定程度上解决上面提到的求逆的问题。

岭回归的性质：
(1) $\alpha = 0$ 为最小二乘回归
(2) $\alpha$ 越大， $w$ 各个分量趋向于0

这里写图片描述
上图为随着 $\alpha$ 增大（从右往左）， $w$ 各个分量的变化情况，称为岭迹图。在实际中可以选择一个岭迹相对比较平稳，然后最后的误差变化不太大的参数作为 $\alpha$ 的值。

综合来看，岭回归就是通过放弃部分的信息和精度，获得更合理的结果，更好的数值稳定性。岭回归是一种有偏估计。

LASSO

LASSO的形式和岭估计非常类似，只是正则化项从2范数变成了1范数

w * = arg min w （ ∥ X w - y ∥ 22 + α ∥ w ∥ 1 ） (3)

$w^* = \arg \min_w （ \Vert Xw-y \Vert _2^2 +\alpha \Vert w\Vert _1）\quad \quad \quad (3)$

LASSO可以产生更为稀疏的解，就是随着 $\alpha$ 的增长， $w$ 中一直可能会产生0。
下面两幅图描述了岭回归和LASSO的解的分布，图中的 $\beta$ 就是本文中的 $w$
这里写图片描述
上图是岭回归的解的情况，解就是等高线和圆相切的地方

上图是LASSO的解的情况，可以看到有一个分量为0，这就是解的稀疏性的由来。

逻辑斯谛回归（对数几率回归）

线性模型是否可以用来分类？这里引入对数几率回归，考虑二分类任务，输出类别 $y \in \{0,1\}$ ，而线性回归产生的预测值 $z = w^Tx+b$ 是实值，我们首先可以想到利用0/1阶跃函数将 $z$ 转换为离散的类别 $y$ 。但是阶跃函数不可微，所以我们使用Sigmoid函数将 $z$ 映射到0,1区间内。
Sigmoid函数