岭回归是一种针对多重共线性问题的回归方法,通过对线性回归模型引入 正则化项,限制模型系数的大小,从而提高模型的泛化能力。
1. 背景问题
在普通最小二乘(OLS)回归中,损失函数是最小化残差平方和:
其中,预测值 。
多重共线性
- 如果特征之间存在强烈的相关性(即多重共线性),会导致普通线性回归的解不稳定:
- 矩阵
的条件数很大或接近奇异。
- 回归系数 β 对训练数据的噪声极为敏感,导致模型泛化能力差。
- 矩阵
2. 岭回归的改进
引入
正则化
岭回归在 OLS 损失函数中添加了一个惩罚项,限制回归系数的平方和: