前言
1、回归类算法(一般线性回归、逻辑回归或者存活分析)都要考虑多个预测因子,故需要考虑多重共线性(multicollinearity)问题。
2、在其他算法中,如决策树和Bayes,DT的建模过程是逐步递进,每次拆分只有一个变量参与,这种建模机制含有抗多重共线性干扰的功能;Bayes假定变量之间是相互独立的, 因此不考虑多重共线性问题。
3、对于多重共线性问题,需要辩证考虑,既不可坐视不管,也不可全然否定。
1、共线性的原理部分
假设有k个自变量的多元线性回归模型
y = β 0 + β 1 x 1 + . . + β k x k + ε = X β + ε y=\beta_0+\beta_1x_1+..+\beta_kx_k+\varepsilon=X\beta+\varepsilon y=β0+β1x1+..+βkxk+ε=Xβ+ε
其中,误差项 ε \varepsilon ε服从 N ( 0 , σ 2 ) N(0,\sigma^2) N(0,σ2)。
当矩阵 X X X是满秩时利用最小二乘法进行参数估计得
β ^ = ( X T X ) − 1 X T