32、线性回归中的特征处理与参数拟合

线性回归中的特征处理与参数拟合

1. 处理高度相关的特征

在数据分析和建模过程中,高度相关的特征是一个需要谨慎处理的问题。拥有与目标高度相关的特征是好事,因为这有助于构建预测性强的模型。但多个特征之间高度相关则可能带来麻烦。

1.1 高度相关特征的问题

假设有两个完全相关的特征,比如数据矩阵中一个人的身高用英尺表示($x_1$)和用米表示($x_2$),由于1米等于3.28084英尺,这两个变量完全相关。然而,同时使用这两个变量并不能真正帮助模型,因为添加完全相关的特征不会为预测提供额外信息。如果这些重复特征真的有价值,那就意味着可以通过复制数据矩阵的列来构建更精确的模型,这显然是不合理的。

此外,相关特征对模型有害,而不仅仅是没有帮助。假设因变量是身高的函数,那么仅基于$x_1$、仅基于$x_2$或基于$x_1$和$x_2$的任意线性组合都可以构建出同样好的模型。那么应该报告哪个模型作为答案呢?这会让人困惑,更糟糕的是,协方差矩阵的行将相互依赖,计算$w = (A^T A)^{-1}A^T b$时需要对奇异矩阵求逆,数值计算方法可能会失败。

1.2 解决方法

解决这个问题的方法是通过计算适当的协方差矩阵来识别过度相关的特征对。如果存在这样的特征对,可以消除其中一个变量,而不会损失太多模型的能力。更好的方法是通过组合特征来完全消除这些相关性,这可以通过降维技术(如奇异值分解)来实现。

2. 纽约出租车小费的故事

作为纽约人,作者对纽约有着深厚的感情。纽约的出租车司机以其精明和街头智慧在世界范围内受到尊重。乘坐出租车时给司机小费是一种习俗,但给多少并没有既定的传统。作者自

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值