【转】最小二乘法与岭回归的介绍与对比

最新推荐文章于 2025-06-12 16:43:55 发布

转载最新推荐文章于 2025-06-12 16:43:55 发布 · 1.5k 阅读

机器学习专栏收录该内容

12 篇文章

订阅专栏

本文介绍了线性回归的基本原理及最小二乘法的应用，探讨了在面对多重共线性和奇异矩阵等问题时，如何利用岭回归和LASSO回归进行模型优化，通过引入正则化项来提高模型的稳定性和预测准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文：https://blog.youkuaiyun.com/dang_boy/article/details/78504258

一线性回归（最小二乘法）

假设我们有n个样本数据，每个数据有p个特征值，然后p个特征值是线性关系。

即对应的线性模型

写成矩阵的形式即是Y=XA

由于样本与模型不一定百分百符合，存在一些噪声，即误差，用B表示，B也是一个向量

即B=Y-XA

Y为样本值，XA为模型的计算值，即期望值

误差的平方的计算公式

Xi为行向量，A为列向量。

最小二乘法的目标就是取得最小的e对应的A，由于方差的计算是一个二次函数，即抛物线，对应存在一个最小值，即导数为0对应的A。所以对e求A的偏导数，再使其等于0，求解方程即可以获得A。

误差的平方e写成矩阵形式即为

对矩阵E取迹（迹就是矩阵对角线上所有元素的累加）且对迹求导后结果为一个矩阵。

即为

展开为

求导化简结果为

当A的维数比Y的维数多，即样本数量n少于特征值p的时候存在多个解，可能导致结果很不稳定，所以要确保n>p

X矩阵不存在广义逆（即奇异性）的情况：
1）X本身存在线性相关关系（即多重共线性），即非满秩矩阵。
当采样值误差造成本身线性相关的样本矩阵仍然可以求出逆阵时，此时的逆阵非常不稳定，所求的解也没有什么意义。
2）当变量比样本多，即p>n时.
这时，回归系数会变得很大，无法求解。在统计学上，可证明A的最小二乘解为无偏估计，即多次得到的采样值X而计算出来的多个系数估计值向量的平均值将无限接近于真实值向量β。

二岭回归（Ridge Regression）

思路：在原先的A的最小二乘估计中加一个小扰动λI，是原先无法求广义逆的情况变成可以求出其广义逆，使得问题稳定并得以求解。

可以看到变为满秩矩阵，可以求稳定的逆。

对应的推导过程如下：

上式子写成矩阵的形式为

对上式子采用一样的方式（求A的偏导数=0）可得

岭回归与最小二乘的区别在于这一项，称之为正则项，这一项可以看成是对A的各个元素，即各个特征的权的总体的平衡程度，也就是权之间的方差。

介绍一下误差（偏差）和方差

偏差bais

预测出来的数据与真实值的差距

方差 variance

预测出来的数据的分散程度

在二维的情况下可以这样来理解

RSS为误差

椭圆形抛物面为这一部分，圆柱形为这一部分，由最小二乘法求得的解是抛物面的最低点，由岭回归求得的解便是图中的黄点，一般来说，拟合的误差值（偏差）越小，A的各个元素（权）的方差越高，所以岭回归是找到一个方差不会太大，误差也不会太大的一个权衡的点，随着r增大，方差变大（随着增大，方差减小）。

岭回归性质
1）当岭参数为0，得到最小二乘解。
2）当岭参数λ趋向更大时，岭回归系数A估计趋向于0。
3）岭回归是回归参数A的有偏估计。它的结果是使得残差平和变大，但是会使系数检验变好。
4）在认为岭参数λ是与y无关的常数时，是最小二乘估计的一个线性变换，也是y的线性函数。
但在实际应用中，由于λ总是要通过数据确定，因此λ也依赖于y、因此从本质上说，并非的线性变换，也非y的线性函数。
5）对于回归系数向量来说，有偏估计回归系数向量长度<无偏估计回归系数向量长度。

即
6）存在某一个λ，使得它所对应的的MSE（估计向量的均方误差）<最小二乘法对应估计向量的的MSE。
即存在λ>0，使得

岭迹图
是λ的函数，岭迹图的横坐标为λ，纵坐标为A(λ)。而A(λ)是一个向量，由a1(λ)、a2(λ)、...等很多分量组成，每一个分量都是λ的函数，将每一个分量分别用一条线。
当不存在奇异性时，岭迹应是稳定地逐渐趋向于0

岭迹图作用：
1）观察λ较佳取值；
2）观察变量是否有多重共线性；

在λ很小时，A很大，且不稳定，当λ增大到一定程度时，A系数迅速缩小，趋于稳定。

λ的选择：一般通过观察，选取喇叭口附近的值，此时各β值已趋于稳定，但总的RSS又不是很大。
选择变量：删除那些β取值一直趋于0的变量。

岭参数的一般选择原则
选择λ值，使到
1）各回归系数的岭估计基本稳定；
2）用最小二乘估计时符号不合理的回归系数，其岭估计的符号变得合理；
3）回归系数没有不合乎实际意义的值；
4）残差平方和增大不太多。一般λ越大，系数β会出现稳定的假象，但是残差平方和也会更大。

取λ的方法比较多，但是结果差异较大。这是岭回归的弱点之一。

岭回归选择变量的原则（不靠谱，仅供参考）
1）在岭回归中设计矩阵X已经中心化和标准化了，这样可以直接比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比较稳定且值很小的自变量。
2）随着λ的增加，回归系数不稳定，震动趋于零的自变量也可以剔除。
3）如果依照上述去掉变量的原则，有若干个回归系数不稳定，究竟去掉几个，去掉哪几个，这无一般原则可循，这需根据去掉某个变量后重新进行岭回归分析的效果来确定。

三 LASSO回归

LASSO回归和岭回归的区别只在于正则项不同