多重判定系数怎么求_计量笔记:多重共线性

本文聚焦多元回归分析中的多重共线性问题。阐述了OLS估计量方差受误差方差、自变量样本波动和自变量间线性关系影响;分析了多重共线性后果,介绍了根据回归结果、相关矩阵、VIF、条件指数等诊断方法,还给出扩大样本容量等解决办法及处理原则。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、定义

在多元回归分析中,我们知道OLS估计量的方差公式为:

  • 上式的含义表示OLS估计量的方差受误差方差
    、自变量
    的总样本波动
    和自变量之间的线性关系
    三者的共同影响。

(1)对误差方差

而言。
  • 误差方差
    越大,意味着OLS估计量的方差就越大,这是因为方差中的“噪音”越多(
    越大),就会使得估计任何一个自变量对y的偏效应越困难。由于
    是总体的一个特征,所以它与样本容量无关,换句话说,对于一个给定的因变量y,只有一个方法可以减少误差方差,那就是在方程中增加更多的解释变量(当然这样做,也不一定能得到令人满意的结果)。

(2)对于

的总样本波动
而言。
  • 越大,
    就越小,因此,我们可以通过扩大样本容量来提高每个自变量的样本波动。当
    很小时,
    会变得很大,但是小的
    并不违背高斯-马尔科夫假定3(
    MLR.3),即不存在完全共线。其实,这句话有个前提假设,即如果
    于0,
    会趋于无穷大,这时就违背了假定
    MLR.3,因为在假定MLR.3中有个细节是:“在样本中,没有一个自变量是常数,自变量之间也不存在严格的线性关系”,
    趋于0,说明该自变量为常数。

(3)对于自变量之间的线性关系

而言(这一项是我们最熟悉也最难理解的部分)。
  • 首先,我们要搞清楚,
    为因变量与其它解释变量为自变量进行简单回归后的拟合优度(并不是指变量间的相关系数)。当
    接近1时,表明在这个样本中,其他自变量解释了
    的大部分变动,这就意味着
    与其他解释变量高度相关。当
    →1,
    →∞。然而,
    接近1并不违背假定MLR.3,这是因为多重共线性和完全共线是有差别的。例如,假设
    =0.9,说明
    的样本波动,90%都可以由回归模型中的其他自变量来解释,换句话说,
    与其他自变量之间存在着很强的线性关系。但这也不一定就表明
    因为太大而无用,具体还要取决于
    的大小。

综上,我们看到很大的

和很小的
都可以导致
变大。威斯康星大学著名计量经济学家阿瑟·戈德伯格(Arthur Goldberger)认为小样本容量也能导致很大的抽样方差,对于样本中自变量间出现高度相关的担心,实际上无异于对小样本容量的担心,因为二者都会提高
。其实,多重共线性实质上是一个数据问题,当解释变量都享有共同的时间趋势,也会导致多重共线性(例如解释变量与其滞后项),这可能是时间惯性带来的。

二、后果

  • 完全共线意味着
    无逆矩阵。因此,
    ,不存在,所以OLS无法应用。但是完全共线的情况在现实中很少出现,也不难发现(例如,虚拟变量陷阱,就是一种典型的完全共线),因而我们只讨论严重多重共线性的后果。
  • 首先,多重共线性不改变参数估计量的无偏性,前面我们提到,
    很大也不会违背假定MLR.3,所以也不会影响扰动项和解释变量观测值的性质。但各共线变量参数的OLS估计值很大,即估计值的精度很低。这就会导致各共线变量系数估计量的
    值很低,使得范第II类错误的可能增加,容易使结果变得不显著,进而无法正确判断各自变量对因变量的影响。

三、多重共线性的诊断和检验

(1)根据回归结果判断

  • 如果发现系数估计值的符号不对,可能存在多重共线性问题;
  • 如果某些重要的解释变量t值太低,而R2不低,可能存在多重共线性问题;
  • 如果当一个不太重要的解释变量被删除后,回归结果显著变化,可能存在多重共线性问题。

(2)使用相关矩阵检验

  • 做回归分析前,我们都会进行相关系数检验,如果发现某些变量之间的相关系数绝对值高于0.8,可能存在多重共线性问题。当然,即使某些变量之间的相关系数都很低,也不能排除存在多重共线性的可能性。

(3)使用VIF检验

  • 这是最常用的检验方法,其原理是
    ,那么
    ,一般给定的临界值是10。

(4)通过条件指数检验

  • 条件指数(condition index)或条件数(condition number) 是
    矩阵的最大和最小特征根之比的平方根,条件指数高,表明存在多重共线性。临界值是30。

四、解决多重共线性方法

(1)扩大样本容量

  • 多重共线性实质上是数据问题,理论上高度相关的变量,其具体观测值之间未必存在高度相关性,反之亦然。因此,用扩大样本容量、增加观测值、利用不同的数据集或采用新的样本等方法,就有可能消除或减缓多重共线性问题。

(2)对模型施加某些约束条件

  • 在存在多重共线性的模型中,依据经济理论施加某些约束条件,将减小系数估计量的方差,例如Cobb-Douglas生产函数中加进规模效益不变的约束,可解决资本和劳动的高度相关而引起的多重共线性问题。

(3)删除一个或几个共线变量

  • 这样做,实际上就是利用给定数据估计较少的参数,从而降低对观测信息的需求,以解决多重共线性问题。删除哪些变量,可根据假设检验的结果确定。但需要注意的是,这种做法会导致估计结果产生偏差,会引起遗漏变量问题,因此需要慎用。

(4)将模型适当变形

  • 在模型中,可以将两个高度相关的变量进行数学上的变形,比如将两个高度相关的变量相除,可以解决因这两个变量产生的多重共线问题。

(5)主成分回归

  • 作法是对全部解释变量运用主成分分析以得到主成分,每个主成分是全部解释变量的线性组合,由于各主成分之间互不相关,并且可以用很少的几个主成分就可以解释全部X变量的绝大部分方差,因而在出现多重共线性时,可以用主成分替代原有解释变量进行回归计算,然后再将所得到的系数还原成原模型中的参数估计值。

五、处理多重共线性问题的原则

  • 多重共线性是普遍存在的,轻微的多重共线性问题可以不采取措施。
  • 严重的多重共线性问题,一般可根据经验或通过回归结果发现。如影响符号,重要的解释变量
    值很低。要根据不同情况采取必要措施。
  • 如果模型仅仅用于预测,则只要拟合程度好,可不处理多重共线性问题,存在多重共线性的模型用于预测时,往往不影响预测结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值