一、定义
在多元回归分析中,我们知道OLS估计量的方差公式为:
- 上式的含义表示OLS估计量的方差受误差方差
、自变量
的总样本波动
和自变量之间的线性关系
三者的共同影响。
(1)对误差方差
- 误差方差
越大,意味着OLS估计量的方差就越大,这是因为方差中的“噪音”越多(
越大),就会使得估计任何一个自变量对y的偏效应越困难。由于
是总体的一个特征,所以它与样本容量无关,换句话说,对于一个给定的因变量y,只有一个方法可以减少误差方差,那就是在方程中增加更多的解释变量(当然这样做,也不一定能得到令人满意的结果)。
(2)对于
越大,
就越小,因此,我们可以通过扩大样本容量来提高每个自变量的样本波动。当
很小时,
会变得很大,但是小的
MLR.3),即不存在完全共线。其实,这句话有个前提假设,即如果并不违背高斯-马尔科夫假定3(
于0,
MLR.3,因为在假定MLR.3中有个细节是:“在样本中,没有一个自变量是常数,自变量之间也不存在严格的线性关系”,会趋于无穷大,这时就违背了假定
趋于0,说明该自变量为常数。
(3)对于自变量之间的线性关系
- 首先,我们要搞清楚,
是
为因变量与其它解释变量为自变量进行简单回归后的拟合优度(并不是指变量间的相关系数)。当
接近1时,表明在这个样本中,其他自变量解释了
的大部分变动,这就意味着
与其他解释变量高度相关。当
→1,
→∞。然而,
接近1并不违背假定MLR.3,这是因为多重共线性和完全共线是有差别的。例如,假设
=0.9,说明
的样本波动,90%都可以由回归模型中的其他自变量来解释,换句话说,
与其他自变量之间存在着很强的线性关系。但这也不一定就表明
因为太大而无用,具体还要取决于
和
的大小。
综上,我们看到很大的
二、后果
- 完全共线意味着
无逆矩阵。因此,
,不存在,所以OLS无法应用。但是完全共线的情况在现实中很少出现,也不难发现(例如,虚拟变量陷阱,就是一种典型的完全共线),因而我们只讨论严重多重共线性的后果。
- 首先,多重共线性不改变参数估计量的无偏性,前面我们提到,
很大也不会违背假定MLR.3,所以也不会影响扰动项和解释变量观测值的性质。但各共线变量参数的OLS估计值很大,即估计值的精度很低。这就会导致各共线变量系数估计量的
值很低,使得范第II类错误的可能增加,容易使结果变得不显著,进而无法正确判断各自变量对因变量的影响。
三、多重共线性的诊断和检验
(1)根据回归结果判断
- 如果发现系数估计值的符号不对,可能存在多重共线性问题;
- 如果某些重要的解释变量t值太低,而R2不低,可能存在多重共线性问题;
- 如果当一个不太重要的解释变量被删除后,回归结果显著变化,可能存在多重共线性问题。
(2)使用相关矩阵检验
- 做回归分析前,我们都会进行相关系数检验,如果发现某些变量之间的相关系数绝对值高于0.8,可能存在多重共线性问题。当然,即使某些变量之间的相关系数都很低,也不能排除存在多重共线性的可能性。
(3)使用VIF检验
- 这是最常用的检验方法,其原理是
,那么
,一般给定的临界值是10。
(4)通过条件指数检验
- 条件指数(condition index)或条件数(condition number) 是
矩阵的最大和最小特征根之比的平方根,条件指数高,表明存在多重共线性。临界值是30。
四、解决多重共线性方法
(1)扩大样本容量
- 多重共线性实质上是数据问题,理论上高度相关的变量,其具体观测值之间未必存在高度相关性,反之亦然。因此,用扩大样本容量、增加观测值、利用不同的数据集或采用新的样本等方法,就有可能消除或减缓多重共线性问题。
(2)对模型施加某些约束条件
- 在存在多重共线性的模型中,依据经济理论施加某些约束条件,将减小系数估计量的方差,例如Cobb-Douglas生产函数中加进规模效益不变的约束,可解决资本和劳动的高度相关而引起的多重共线性问题。
(3)删除一个或几个共线变量
- 这样做,实际上就是利用给定数据估计较少的参数,从而降低对观测信息的需求,以解决多重共线性问题。删除哪些变量,可根据假设检验的结果确定。但需要注意的是,这种做法会导致估计结果产生偏差,会引起遗漏变量问题,因此需要慎用。
(4)将模型适当变形
- 在模型中,可以将两个高度相关的变量进行数学上的变形,比如将两个高度相关的变量相除,可以解决因这两个变量产生的多重共线问题。
(5)主成分回归
- 作法是对全部解释变量运用主成分分析以得到主成分,每个主成分是全部解释变量的线性组合,由于各主成分之间互不相关,并且可以用很少的几个主成分就可以解释全部X变量的绝大部分方差,因而在出现多重共线性时,可以用主成分替代原有解释变量进行回归计算,然后再将所得到的系数还原成原模型中的参数估计值。
五、处理多重共线性问题的原则
- 多重共线性是普遍存在的,轻微的多重共线性问题可以不采取措施。
- 严重的多重共线性问题,一般可根据经验或通过回归结果发现。如影响符号,重要的解释变量
值很低。要根据不同情况采取必要措施。
- 如果模型仅仅用于预测,则只要拟合程度好,可不处理多重共线性问题,存在多重共线性的模型用于预测时,往往不影响预测结果。