机器学习中的特征处理与回归方法
在机器学习领域,特征处理和回归方法是构建有效模型的关键环节。本文将深入探讨高度相关特征的处理问题,以及将回归视为参数拟合问题的相关方法,还会结合出租车小费数据的实际案例进行分析。
高度相关特征的处理
在构建机器学习模型时,与目标高度相关的特征无疑是非常有益的,它们能够帮助我们构建出具有高预测能力的模型。然而,多个特征之间的高度相关性却可能带来诸多问题。
例如,在数据矩阵中存在两个完全相关的特征,像一个人的身高,用英尺($x_1$)和米($x_2$)来表示。由于 1 米等于 3.28084 英尺,这两个变量是完全相关的。但同时使用这两个变量并不能真正帮助我们的模型,因为添加一个完全相关的特征并不能为预测提供额外的信息。如果这样的重复特征真的有价值,那就意味着我们可以通过简单地复制数据矩阵中的列来构建越来越准确的模型,这显然是不合理的。
相关特征对模型的危害不仅仅是没有帮助,还可能导致更严重的问题。假设我们的因变量是身高的函数,那么仅基于 $x_1$、仅基于 $x_2$ 或者基于 $x_1$ 和 $x_2$ 的任意线性组合,都可以构建出同样好的模型。那么,我们应该报告哪个模型作为答案呢?这会让人感到困惑。更糟糕的是,协方差矩阵的行将相互依赖,计算 $w = (A^T A)^{-1}A^T b$ 时需要对奇异矩阵求逆,数值计算方法在计算回归时很可能会失败。
解决这个问题的方法是,通过计算适当的协方差矩阵来识别相关性过强的特征对。如果存在这样的特征对,我们可以消除其中一个变量,而不会损失太多的预测能力。更好的方法是通过组合特征来完全消除这些相关性,这也是降维技术(如奇异值分解)所解决的问题之一。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



