32、线性回归中的特征处理与参数拟合

stem5

于 2025-11-01 15:07:46 发布

阅读量25

点赞数

CC 4.0 BY-SA版权

分类专栏：数据科学的艺术与实践文章标签：线性回归特征处理参数拟合

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/stem5/article/details/154983903

数据科学的艺术与实践专栏收录该内容

49 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

线性回归中的特征处理与参数拟合

在数据分析与机器学习领域，线性回归是一种广泛应用的技术。然而，在实际应用中，我们会遇到一些问题，如高度相关特征的处理以及如何更有效地进行参数拟合。下面将详细探讨这些问题。

1. 高度相关特征的处理

在构建预测模型时，与目标高度相关的特征是非常有价值的，它们能帮助我们构建出预测性强的模型。但当多个特征之间高度相关时，就可能会带来问题。

例如，在数据矩阵中，若同时存在以英尺为单位的身高（$x_1$）和以米为单位的身高（$x_2$）这两个特征，由于 1 米等于 3.28084 英尺，这两个变量是完全相关的。添加这样完全相关的特征并不能为预测提供额外信息，也就无法真正帮助到我们的模型。如果这些重复特征真的有价值，那就意味着我们可以通过复制数据矩阵中的列来构建更准确的模型，这显然是不合理的。

相关特征不仅没有帮助，还可能对模型有害。假设因变量是身高的函数，我们可以仅基于 $x_1$、仅基于 $x_2$ 或基于 $x_1$ 和 $x_2$ 的任意线性组合来构建同样好的模型，那么该选择哪个模型作为结果呢？这会让人感到困惑。更糟糕的是，协方差矩阵的行将相互依赖，计算 $w = (A^T A)^{-1}A^T b$ 时需要对奇异矩阵求逆，数值计算方法很可能会失败。

解决这个问题的方法是通过计算适当的协方差矩阵来识别过度强相关的特征对。如果存在这样的特征对，可以消除其中一个变量，而不会损失太多的模型能力。更好的方法是通过组合特征来完全消除这些相关性，这可以通过降维技术（如奇异值分解）来实现。

2. 出租车小费的故事

作为纽约人，作者对纽约这座城市充满自豪。纽约的出租车司机以其精明和街头

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。