多重共线性是使用线性回归算法时经常要面对的一个问题。在其他算法中,例如决策树或者朴素贝叶斯,前者的建模过程时逐渐递进,每次都只有一个变量参与,这种机制含有抗多重共线性干扰的功能;后者假设变量之间是相互独立的。但对于回归算法来说,都要同时考虑多个预测因子,因此多重共线性不可避免。
我们先来看共线性的原理,假设k个自变量的多元线性回归模型: y = θ 0 + θ 1 x 1 + . . . + θ k x k = θ T x + ϵ y=\theta_{0}+\theta_{1}x_{1}+... +\theta_{k}x_{k}=\theta ^{T}x+\epsilon y=θ0+θ1x1+...+θkxk=θT