R语言多元回归分析全解析
1. 预测变量的相关性与多重共线性
在回归分析中,预测变量之间的相关性对模型有着重要影响。如果两个预测变量完全不相关,那么第二个预测变量很可能解释了与第一个预测变量不同的结果方差。尽管第二个预测变量本身可能只解释了结果方差的一小部分,但它所解释的方差与另一个预测变量不同,因此当两个预测变量都被纳入模型时,决定系数R会显著增大。所以,拥有不相关的预测变量是有益的。
然而,预测变量之间的多重共线性会使评估单个预测变量的重要性变得困难。如果预测变量高度相关,并且每个变量对结果的方差解释相似,我们就无法确定哪个变量更重要,因为模型可以互换地包含其中任何一个变量。
识别多重共线性的一种方法是扫描所有预测变量的相关矩阵,查看是否有相关性极高(如相关系数高于0.80或0.90)的情况。这是一种大致的方法,但会遗漏一些更微妙的多重共线性形式。幸运的是,R可以提供各种共线性诊断,其中之一是方差膨胀因子(VIF)。VIF表明一个预测变量是否与其他预测变量有很强的线性关系。虽然对于VIF的临界值没有严格的规定,但Myers(1990)建议将10作为一个值得关注的值。此外,如果平均VIF大于1,那么多重共线性可能会使回归模型产生偏差(Bowerman & O’Connell,1990)。与VIF相关的是容忍度统计量,它是VIF的倒数(1/VIF)。值低于0.1表示存在严重问题,而Menard(1995)建议值低于0.2就值得关注。
2. 多元回归分析前的思考
在进行回归分析时,一个好的策略是测量那些有充分理论依据能够预测结果的预测变量。进行一次回归分析,将所有预测变量纳入模型,然后检查输出结果,看哪些预测变量对模型预测结果的能
超级会员免费看
订阅专栏 解锁全文
57

被折叠的 条评论
为什么被折叠?



