线性回归中的特征处理与参数拟合
在数据分析与机器学习领域,线性回归是一种广泛应用的技术。然而,在实际应用中,我们会遇到一些问题,如高度相关特征的处理以及如何更有效地进行参数拟合。下面将详细探讨这些问题。
1. 高度相关特征的处理
在构建预测模型时,与目标高度相关的特征是非常有价值的,它们能帮助我们构建出预测性强的模型。但当多个特征之间高度相关时,就可能会带来问题。
例如,在数据矩阵中,若同时存在以英尺为单位的身高($x_1$)和以米为单位的身高($x_2$)这两个特征,由于 1 米等于 3.28084 英尺,这两个变量是完全相关的。添加这样完全相关的特征并不能为预测提供额外信息,也就无法真正帮助到我们的模型。如果这些重复特征真的有价值,那就意味着我们可以通过复制数据矩阵中的列来构建更准确的模型,这显然是不合理的。
相关特征不仅没有帮助,还可能对模型有害。假设因变量是身高的函数,我们可以仅基于 $x_1$、仅基于 $x_2$ 或基于 $x_1$ 和 $x_2$ 的任意线性组合来构建同样好的模型,那么该选择哪个模型作为结果呢?这会让人感到困惑。更糟糕的是,协方差矩阵的行将相互依赖,计算 $w = (A^T A)^{-1}A^T b$ 时需要对奇异矩阵求逆,数值计算方法很可能会失败。
解决这个问题的方法是通过计算适当的协方差矩阵来识别过度强相关的特征对。如果存在这样的特征对,可以消除其中一个变量,而不会损失太多的模型能力。更好的方法是通过组合特征来完全消除这些相关性,这可以通过降维技术(如奇异值分解)来实现。
2. 出租车小费的故事
作为纽约人,作者对纽约这座城市充满自豪。纽约的出租车司机以其精明和街头
超级会员免费看
订阅专栏 解锁全文
4238

被折叠的 条评论
为什么被折叠?



