线性回归

最新推荐文章于 2025-02-23 20:21:57 发布

原创最新推荐文章于 2025-02-23 20:21:57 发布 · 1.3k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#线性回归 #机器学习

机器学习专栏收录该内容

4 篇文章

订阅专栏

这篇博客介绍了线性回归的概念，通过梯度下降法和正规方程训练模型，并探讨了特征缩放和正则化在防止过拟合中的作用，旨在预测未知房屋的售价。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 问题引入

已知一批房屋销售数据，

面积（ $m^{2}$ ) 价格（万元）
2104 460
1416 232
1534 315
... ...
852 178

面积（ $m^{2}$ )	价格（万元）
2104	460
1416	232
1534	315
...	...
852	178

对于一间面积为1250（该数据不在已知数据内）的房屋，我们该如何预测它的售价呢？一种直观的想法就是利用一条直线去拟合上述数据，然后对于新的数据，可以将直线上这个点对应的值输出作为预测值。

2. 概念和符号

训练样例（training example）：一条房屋销售记录，用 $\left ( \mathbf{x}^{\left ( i \right )}, y^{\left ( i \right )} \right )$ 表示；其中 $\mathbf{x}^{\left ( i \right )}$ 表示特征向量， $y^{\left ( i \right )}$ 表示样例的值。当样例有多个特征时（假设有n个特征），有

$\mathbf{x}^{\left ( i \right )} = \begin{pmatrix} \\ x_{1} \\ x_{2} \\ ... \\ x_{n} \end{pmatrix}$ ；

训练集（training set）：房屋销售记录集合，用X表示； $\mathbf{X} = \left \{ \mathbf{x}^{\left ( 1 \right )}, \mathbf{x}^{\left ( 2 \right )}, ..., \mathbf{x}^{\left ( m \right )} \right \}$ ，m为训练样例数；

3. 线性回归

线性回归假设特征和结果满足线性关系

$h\left ( \mathbf{x} \right ) =h_{\mathbf{\Theta }}\left (\mathbf{x} \right ) = \Theta _{0} + \Theta _{1}x_{1} + \Theta _{2}x_{2} + ... + \Theta _{n}x_{n}$ ，其中

$\mathbf{\Theta } = \begin{pmatrix} \\ \Theta _{0} \\ \Theta _{1} \\ \Theta _{2} \\ ... \\ \Theta _{n} \end{pmatrix}$

令 $x_{0} = 1$ ，则有 $h\left ( \mathbf{x} \right ) =h_{\mathbf{\Theta }}\left (\mathbf{x} \right ) = \mathbf{\Theta }^{T}\mathbf{x}$

这就是线性回归的模型。它的主要特点是假设函数既是变量 $x _{1}, x _{2}, ..., x _{n}$ 的线性方程也是参数 $\Theta _{0}, \Theta _{1}, ..., \Theta _{n}$ 的线性方程。

4. 训练模型

定义代价函数（Cost Function，也叫Squared Error Function）

$J\left ( \mathbf{\Theta } \right ) = \frac{1}{2m}\sum_{i=1}^{m}\left ( h_{\mathbf{\Theta }}\left ( \mathbf{x}^{\left ( i \right )} \right ) - y^{\left ( i \right )} \right )^{2}$

$J\left ( \mathbf{\Theta } \right )$ 越小，表示假设函数 $h(\mathbf{x })$ 在训练集上拟合的越好。那么如何选择 $\mathbf{\Theta }$ ，使得 $J\left ( \mathbf{\Theta } \right )$ 最小呢？

4.1 Gradient Descent（梯度下降法)

starts with some $\mathbf{\Theta}$ ;

repeats until convergence {

$\Theta_{j} = \Theta_{j} - \alpha\frac{\partial }{\partial \Theta _{j}}J(\mathbf{\Theta }) = \Theta_{j} - \alpha \frac{1}{m}\sum_{i=1}^{m}(h_{\mathbf{\Theta }}(\mathbf{x}^{(i)}) - y^{(i)})\mathbf{x}_{j}^{(i)}$ (Simultaneously update $\Theta_{j}$ )

}

我们还是以房屋销售为例来理解这个算法。先写出它的代价函数

$J(\Theta_{0}, \Theta_{1}) = \frac{1}{2m}\sum_{i=1}^{m}\left ( h_{\mathbf{\Theta }}\left ( \mathbf{x}^{(i)} \right ) - y^{\left ( i \right )} \right )^{2}$

下图是它的函数图像

我们再作出它的等高图

假设我们初始化 $(\Theta_{0}, \Theta_{1})$ 为图中小红叉所在的点，那么随着算法的进行， $(\Theta_{0}, \Theta_{1})$ 将沿着下图所示的路径移动，并最终移动到最低点。

上面只是介绍了梯度算法的工作过程，那么它为什么可以有效工作呢？我们知道，对 $J\left ( \mathbf{\Theta } \right )$ 求 $\Theta_{j}$ 的偏导，其实就是计算 $J\left ( \mathbf{\Theta } \right )$ 在 $\Theta_{j}$ 所在维度的斜率（或者讲 $J\left ( \mathbf{\Theta } \right )$ 在任意一点的斜率沿 $\Theta_{j}$ 所在坐标轴的分量）。为了看的更清楚，我们以一个二次函数为例，

当 $\Theta$ 位于最低点左边（ $\Theta$ 比 $\Theta_{0}$ 小）时，斜率为负，此时 $-\frac{\partial}{\partial \Theta }J(\Theta)$ 为正， $\Theta -\frac{\partial}{\partial \Theta }J(\Theta)$ 将变大，即 $\Theta$ 向 $\Theta_{0}$ 靠近；

当 $\Theta$ 位于最低点右边（ $\Theta$ 比 $\Theta_{0}$ 大）时，斜率为正，此时 $-\frac{\partial}{\partial \Theta }J(\Theta)$ 为负， $\Theta -\frac{\partial}{\partial \Theta }J(\Theta)$ 将变小， $\Theta$ 仍然向 $\Theta_{0}$ 靠近；

在梯度下降算法中还有一个重要的参数 $\alpha$ （> 0）（Learning Rate），它控制了学习的速度。

当 $\alpha$ 较大时， $J\left ( \mathbf{\Theta } \right )$ 可能并不总是变小（overshootting，如下图所示），最终可能不会收敛；

当 $\alpha$ 较小时，收敛的速度会比较慢，最终可能需要较多的迭代才能收敛。由于在迭代的过程中 $\frac{\partial}{\partial \Theta }J(\Theta)$ 越来越小，因此在选择好 $\alpha$ 后并不需要在学习的过程中调整 $\alpha$ 的值。

当然，梯度下降法找到的只是一个局部最小值而并不一定是全局最小值，这取决于 $\mathbf{\Theta}$ 的初始值。下面的图说明选取的初值不同，最终到达的最优点也可能不同。

不过庆幸的是线性回归的代价函数一般都是凸函数，通过梯度下降的方法通常都可以找到最小值点。

4.2 Normal Equation

$\mathbf{\Theta } = (\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{X}^{T}\mathbf{Y}$ ，其中

$\mathbf{X} = \begin{bmatrix} &1 &\mathbf{x}_{1}^{(1)} &\mathbf{x}_{2}^{(1)} &... &\mathbf{x}_{n}^{(1)} \\ &1 &\mathbf{x}_{1}^{(2)} &\mathbf{x}_{2}^{(2)} &... &\mathbf{x}_{n}^{(2)} \\ &... &... &... &... &...\\ &1 &\mathbf{x}_{1}^{(m)} &\mathbf{x}_{2}^{(m)} &... &\mathbf{x}_{n}^{(m)} \\ \end{bmatrix}$

它的推导还是比较简单的。我们期望最好的情况是 $h_{\mathbf{\Theta }}\left ( \mathbf{x} \right ) = y$ ，表明假设函数与训练数据集完全一致，此时有

$\mathbf{X}\mathbf{\Theta } = \mathbf{Y}$

两边同时乘以 $\mathbf{X}^{T}$ 有

$\mathbf{X}^{T}\mathbf{X}\mathbf{\Theta } = \mathbf{X}^{T}\mathbf{Y}$

注意到 $\mathbf{X}^{T}\mathbf{X}$ 是一个方阵，等式两边再同时乘以这个方阵的逆矩阵可以得到

$(\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{X}^{T}\mathbf{X}\mathbf{\Theta } = (\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{X}^{T}\mathbf{Y}$

于是就可以得到

$\mathbf{\Theta } = (\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{X}^{T}\mathbf{Y}$

细心的读者可能会发现一个问题：如果按照上述的推导过程，最终会有 $h_{\mathbf{\Theta }}\left ( \mathbf{x} \right ) = y$ 对所有的 $\left ( \mathbf{x}^{\left ( i \right )}, y^{\left ( i \right )} \right )$ 都成立。但在机器学习的过程中，这往往是不可能的。那么上述过程有什么不对呢？对的， $\mathbf{X}^{T}\mathbf{X}$ 的逆矩阵不一定存在，但这并不影响Normal Equation正常工作。在Octave里，即使一个矩阵的逆矩阵不存在，调用它的pinv函数依然可以得到它的伪逆矩阵。至于pinv是怎样实现的，作者也没有探究过，有兴趣的读者可以去研究下。

5. Feature Scaling

还是考虑房屋销售的例子，现在我们加入房间数目这个特征，

面积（ $m^{2}$ ）

房间数（间）

售价（万元）

2104

5

460

1416

4

232

1534

4

315

...

...

...

852

3

178

面积（ $m^{2}$ ）	房间数（间）	售价（万元）
2104	5	460
1416	4	232
1534	4	315
...	...	...
852	3	178

如果我们写出它的代价函数并作出它的等高图，

可以看到由于样例在两个特征上取值范围的差异，等高线几乎都是扁平的椭圆，这将导致梯度下降算法收敛的非常缓慢。为了克服这个缺点，我们可以对每一个特征进行缩放，使它们处于近似的数量级。缩放的方法可以是

$\mathbf{x}_{j}^{(i)} = \frac{\mathbf{x}_{j}^{(i)}-u_{j}}{\delta _{j}}$

其中 $u_{j}$ 是特征向量第j维的平均值， $\delta _{j}$ 是特征向量第j维的标准差。

6. Regularization

如上图，假设training set有5个点，我们可以构造很多个假设函数模型，比如

(1) $h^{\left ( 1 \right )}\left ( \mathbf{x} \right ) = \Theta_{0} + \Theta_{1}x_{1}$ （上图红线）

(2) $h^{\left ( 2 \right )}\left ( \mathbf{x} \right ) = \Theta_{0} + \Theta_{1}x_{1} + \Theta_{2}x_{1}^{2}$ （上图黑线）

(3) $h^{\left ( 3 \right )}\left ( \mathbf{x} \right ) = \Theta_{0} + \Theta_{1}x_{1} + \Theta_{2}x_{1}^{2} + \Theta_{3}x_{1}^{3} + \Theta_{4}x_{1}^{4}$ （上图绿线）

如果单从代价函数的角度看， $h^{\left ( 3 \right )}\left ( \mathbf{x} \right )$ 无疑是最好的假设，因为它与training set完全拟合，代价几乎为0；但是这个模型过于复杂，对新数据的预测也很难与实际值符合，这是一个overfitting的例子；而 $h^{\left ( 1 \right )}\left ( \mathbf{x} \right )$ 过于简单，它的预测值与实际值存在较大的偏差。显然， $h^{\left ( 2 \right )}\left ( \mathbf{x} \right )$ 才是我们最好要的模型。对于模型过于简单的问题，我们可以通过增加样例特征的方法来解决。那么，怎样避免模型过于复杂的问题呢？

我们把代价函数修改一下，为它增加一个regularization部分

上式中的第1部分要求假设函数尽量拟合训练集，而第2部分要求 $\Theta$ 尽量小，以使假设函数尽量简单，避免出现overfitting。 $\lambda$ 是regularization parameter，是一个权重因子。 $\lambda$ 大，表示我们希望模型简单，这时会有大多数 $\Theta$ 为0（或者接近0）； $\lambda$ 小，表示我们希望模型尽量拟合训练数据集。

6.1 Gradient Descent with Regularization

starts with some $\mathbf{\Theta}$ ;

repeats until convergence {

$\Theta_{0} = \Theta_{0} - \alpha \frac{1}{m}\left \sum_{i=1}^{m}( h_{\mathbf{\Theta }}\left ( \mathbf{x}^{\left ( i \right )} \right ) - y^{\left ( i \right )} \right )\mathbf{x}_{0}^{\left ( i \right )}$

$\Theta_{j} = \Theta_{j} - \alpha \left [ \frac{1}{m}\left \sum_{i=1}^{m}( h_{\mathbf{\Theta }}\left ( \mathbf{x}^{\left ( i \right )} \right ) - y^{\left ( i \right )} \right )\mathbf{x}_{j}^{\left ( i \right )} + \frac{\lambda}{m}\Theta_{j} \right ], (j=1, 2, ..., n)$ (Simultaneously update $\Theta_{j}$ )

}

6.2 Normal Equation with Regularization

$\mathbf{\Theta } = \left ( \mathbf{X}^{T}\mathbf{X} + \lambda \begin{bmatrix} &0 & & & & \\ & &1 & & & \\ & & &1 & & \\ & & & &... & \\ & & & & &1 \\ \end{bmatrix} \right ) \mathbf{X}^{T}\mathbf{Y}$