线性回归

最新推荐文章于 2025-03-10 14:00:00 发布

原创最新推荐文章于 2025-03-10 14:00:00 发布 · 447 阅读

1 ·

CC 4.0 BY-SA版权

机器学习数学原理专栏收录该内容

15 篇文章

订阅专栏

本文深入探讨线性回归原理，解析模型训练与测试过程，强调避免过拟合的重要性，介绍误差的理解与处理，以及最小二乘法和梯度下降算法的应用。

线性回归其实核心就是：用线性函数或多项式函数建立一个模型，这个模型的建立必须要有数据集，这是建立的根据，建立模型的数据叫做训练数据，训练好了我们还要测试，进而评价这么模型是否建立得当，评价这个模型建立的好与坏的数据集叫做测试集。

训练模型的关键在于使得预测值尽量接近真实值，误差是不可避免的，避免误差的后果可以确切的说就是过拟合，即便在训练集上误差不为零，但是误差很小也有可能出现过拟合，所以不要一味追求模型的复杂性，能用简单的东西就不要用复杂的东西，这也是自然界的真理。

那么训练模型时，如何把握好误差呢？我们对于误差有怎样的理解呢？
通常我们认为误差服从高斯分布，且误差的期望为零，方差为 $\sigma^2$ ，这是我们的假设，至于到底是不是服从高斯分布，我们不知道，那么为什么误差项假设服从高斯分布呢？因为自然界中高斯分布是最为普遍的。理解误差是理解线性回归的关键，一方面我们的训练数据不可能保证全部正确，有一些数据标签有问题，还有一些数据可能属性有问题，但是数据集中的大多数还是可靠的，所以在训练集上追求绝对的误差为零其实是不明智的，因为这样已然学到了噪声，影响我们的模型准确性；另一方面，所谓的数据标签很有可能不是一个准确值，同样的数据属性，很可能产生在一个小范围内的浮动的数据标签，即数据标签值的绝对唯一性是虚无的，从这个角度看，追求训练数据集上的误差为零也是不正确的。
下面进行简单的推导：
线性回归的模型通常是这样的： $\hat y =\bm \theta^T\bm x+\theta_0$ 是我们期望建成的模型， $\hat y$ 是的预测值， $\bm x$ 是预测结果时输入模型的数据属性/数据特征； $\bm\theta$ 是 $n\times1$ 向量，是模型的参数，也是各项数据属性的权值； $\theta_0$ 是截距项(intercept) $。我们通过最小二乘法或最大似然估计都可以将训练集上模型预测时产生的误差降到最低程度，这个最低程度是相对的，不是零误差，也不是刻意追求很小，而是在模型复杂度得当的情况下追求预测误差的最小，有时我们还会用岭回归Ridge或Lasso回归限制模型的复杂度，使其参数的绝对值减小或某些参数干脆降为零，

如何训练模型呢？
假设建立模型的训练数据集共有 $n$ 个属性，有 $m$ 条数据，即训练集 $\bm X \in\mathbb R^{m\times n}$ ，训练集的标签lable，即真实值 $\bm y\in \mathbb R^m$ 。
在训练模型时，为了表达的简洁性和计算的方便性，我们将训练集扩充一列，即在最左边加上全一列，这样新的训练集 $\mathcal{X} \in\mathbb R^{m\times (n+1)}$ ；模型参数同样需要扩充，在原 $\bm\theta$ 的最上边加上一个元素“0”，这样新的模型参数 $\Theta\in\mathbb R^{n+1}$ ，从而预测模型变成 $\hat y =\Theta^T\bm x^*$ ，这样损失函数函数 $l(\Theta)=\frac{1}{2m}\sum^m_{i=1}\left(\Theta^T\bm x_i^*-y_i\right)^2=\frac{1}{2m}\left(\mathcal{X}\Theta-\bm y\right)^T\left(\mathcal{X}\Theta-\bm y\right)$ ，加上 $\frac{1}{2m}$ 是为了后面的进行梯度下降算法时候的求导方便，并不影响最终的结果。

最小二乘法是这么来的，如果我们直接根据建立的模型来求解参数 $\Theta$ 是无解的，因为 $\mathcal X\Theta=\bm y$ 属于超定方程，即方程的个数大于未知数的个数，即便方程个数等于未知数的个数，这些点也不可能在一条线上，因此线性方程是无法求解的，这时候最小二乘法就该出场了，最小二乘法思想是这样的：我要找到一个最优解 $\Theta$ ，使得 $\hat\bm y=\mathcal X\Theta$ 最接近 $\bm y$ ，最接近意味着最相似，最相似意味着差异已经达到了该条件下的最小值。利用投影矩阵理解最小二乘法其实更形象，这个有时间再说。

如何求解出最优的 $\Theta$ 值呢，通常来说，有两种方法，分别是“凸函数求偏导解方程的代数方法”和“梯度下降算法的迭代法”。
如果 $\mathcal X$ 的各列线性无关，则 $\mathcal X^T\mathcal X$ 是满秩矩阵，即可逆，这是可以用代数方法。但是这种方法的适用性并不普遍。
梯度下降算法（Gradient Descent）是更为普遍的一种优化算法，是一种不断迭代逼近最优值的算法。这种算法的内核是Taylor级数，只有充分理解了Taylor级数，才能理解梯度下降算法。包括牛顿法也是基于Taylor级数推导出来的。