2-4回归模型的诊断和优化 - 违背基本假设

本文回顾了回归模型的基本假设,包括零均值、同方差、无自相关和正态分布。接着,讨论了模型在实际中常见的不满足假设的情况,如异方差性及其检验方法,如残差图分析和等级相关系数法。此外,还介绍了自相关问题,包括自相关的影响和检验方法,如DW检验。最后,提到了异常值的识别和处理,如通过删除异常残差或应用学生化残差来改善模型拟合。

0 回顾:回归模型的基本假设

线性回归有几个基本的前置假设条件

  • 零均值:随机误差项均值为0 ,保证未考虑的因素对被解释变量没有系统性的影响
  • 同方差:随机误差项方差相同,在给定x的情况下,\varepsilon的条件方差为某个常数\sigma^{ 2 }
  • 无自相关:两个\varepsilon之间不相关,COV\left (\varepsilon _{i}, \varepsilon _{j}\right )=0,i\neq j
  • 正态分布:\varepsilon符合正态分布\varepsilon _{i}\sim N\left ( 0,\sigma ^{2} \right )
  • 解释变量x_{1},x_{1},x_{1},...,x_{p}是非随机变量,其观测值是常数
  • 解释变量之间不存在精确的线性关系
  • 样本个数要多与解释变量的个数

1、常见的不满足基本假设的情况

1.1、异方差

回归模型的中的异方差是指随机误差项的方差不是一个常数,而是随着自变量的取值变化而变化。

由于不满足回归分析中的同方差的前提假设,异方差将可能带来以下几个问题:

  • 对使用最小二乘法(OLS)求解参数时 ,参数估计值虽然无偏,但不是最小方差线性无偏估计

  • 参数显著性检验失效

  • 回归方程的应用效果不理想

造成异方差的常见原因:

  • 模型缺少了某些解释变量,缺省变量本身的方差被包含在了随机误差的方差中

y=\beta _{0}+\beta _{1}x _{1}+\varepsilon         y=\beta _{0}+\beta _{1}x _{1}+\beta _{2}x _{2}+\varepsilon

  • 模型本身选取有误,比如原来是非线性的,结果使用了线性模型

  • 其他原因,包括不限于样本量过少、测量误差、异常数据、时序分析或者使用面板数据等

异方差的检验:

 残差图分析:

  • 坐标选择:纵坐标为残差e_{i},横坐标视情况而定,可选择:x,\hat{y}或者观测时间或序号
  • 判断:散点随机散布、无规律则表明满足基本假设,有明显规律或者呈现一定趋势,则有异方差性
在0附近,小幅度无规律波动
表明变量之前并非线性关系
表明因变量的方差并不相同
蛛网现象,表明因变量自相关

等级相关系数法:又称斯皮尔曼Spearman检验

第一步:做y关于x的普通最小二乘法回归,求出\varepsilon _{i}的估计值e _{i}

第二步:取e _{i}的绝对值\left | e _{i} \right |,把x_{i}\left | e _{i} \right |按升序或者降序排列,分成等级(序号),x_{i}\left | e _{i} \right |分别有一个序号,其差记作d_{i},

计算出等级相关系数r_{s}

r_{s}=1-(6/n*(n^{2}-1))\sum d_{i}^{2}      n为样本个数

第三步:做等级相关系数r_{s}的显著性检验,n> 8时进行t检验,构造t统计量。

t=(\sqrt{n-2}/\sqrt{1-r_{s}^{2}})*r_{s}

如果\left | t \right |\leq t_{\alpha /2} (n-2),可以认为异方差不存在,反之,可以认为x_{i}\left | e _{i} \right |之间存在系统关系,存在异方差的问题。

其他常见的检验方法:

  • 相关图分析:X-Y的散点图,看是否存在明显的扩大,缩小,复杂趋势等
  • Park检验与Gleiser检验:选择关于x的不同函数形式,对方程进行估计并进行显著性验证,如果存在某种函数形式使得方程成立,则说明原模型存在异方差性。
  •  Goldfeld-Quandt检验:以引起异方差的解释变量的大小为顺序,去除中间若干值,生成两个子样本集,对两个子样本集进行回归,计算残差和,构造统计量,
  • ......

消除异方差

消除异方差常见的方法有:加权最小二乘法、BOX-COX变换法、方差稳定性变换法等

以一元线性回归最小二乘法估计参数为例 ,其 离差平方和公式:Q(\beta _{0},\beta _{1})=\sum_{i=1}^{n}(y_{i}-\beta _{0}-\beta _{1}x _{i})^{2}

存在的问题:

每个观测值(即每个样本)的权重相同(都为1),同方差时,每个观测值在离差平方和中的地位是一样的,但是当存在异方差时,方差大的观测值,对平方和的影响也大,OLE求得的回归线,会被拉向方差大的样本点,导致方差小的样本拟合效果差。

此时考虑调整权重,以平衡各个观测值的作用,即为加权最小二乘法,其离差平方和公式变为

Q(\beta _{0},\beta _{1})=\sum_{i=1}^{n}\omega _{i}(y_{i}-\beta _{0}-\beta _{1}x _{i})^{2}    i为第i个观测值得权重值。

\hat{\beta}_{0w}=\bar{y}_{w}-\hat{\beta}_{1w}\bar{x}_{w}  (1)   \hat_{\beta}_{1w}=\sum \omega _{i}(x_{i}-\bar{x}_{w})(y_{i}-\bar{y}_{w})/\sum\omega _{i}(x_{i}-\bar{x}_{w})^{2}  (2)

(1)(2)求解得到:\bar{x}_{w}=\sum\omega _{i}x_{i}/\sum\omega_{i},\bar{y}_{w}=\sum\omega _{i}y_{i}/\sum\omega_{i},\omega_{i}=1/\sigma ^{2}

 

1.2、自相关

回归模型中的自相关是指随机误差项的协方差cov(\varepsilon _{i},\varepsilon _{j})\neq 0,即变量前后数值之间存在相关关系。

由于不满足回归分析中的不相关的前提假设,自相关将可能带来以下问题:

  • 对使用最小二乘法(OLS)求解参数时,参数估计值虽然无偏,但是OLS估计量的方差不是最小的,估计量不是最优线性无偏估计量(BLUE)
  • OLS估计量的方差是有偏的。用来计算方差和OLS估计量标准误差的公式会严重低估真实的方差和标准误差,从而导致t统计量的值变大,使某个系数显著不为0。
  • 显著性检验失败,包括t检验和F检验
  • 存在序列相关时,最小二乘估计量对抽样波动非常敏感
  • 回归方程的应用效果不理想,会带来较大的方差甚至错误

自相关的常见成因:

  • 模型遗漏关键变量,被遗漏变量在时间顺序上存在相关性
  • 错误的回归函数形式
  • 蛛网现象。一般指一个变量对另一个变量的反应是不同步,迟滞一定的时间:S_{t}=B_{1}+B_{2}P_{t-1}+\varepsilon _{t}
  • 对数据加工整理而导致误差项之间出现自相关,比如处理序列数据时采用了不恰当的差分变换

自相关的检验:

图示检验法:

  • 绘制e_{t},e_{t-1}的散点图,如果大部分落在第二、四象限,则表明随机扰动项\varepsilon _{t}存在负相关,如果大部分落在第一、三象限,则表明存在正相关
  • 按时间顺序绘制回归残差项e_{t}的图形,如果随着t的变化,有规律的呈现锯齿状或者循环形状的变化,表明存在序列相关。

自相关系数法:

根据\varepsilon计算自相关系数\rho,其取值范围[1,-1],接近1时表示误差序列存在正相关,接近-1时表示存在负相关。

DW(Durbin - Watson)检验法:适用于小样本,只能检验随机扰动项具有一阶自回归形式的序列相关问题

  • 随机扰动项的一阶自回归形式为:\varepsilon _{t}=\rho \varepsilon _{t-1}+\mu _{t}
  • 构造原假设为H_{0}:\rho =0
  • 构造DW统计量:DW=\sum (e_{t}-e_{t-1})^{2}/\sum e_{t}^{2}\approx 2(1-\hat{\rho }),其中e_{t}=y_{t}-\hat{y}_{t},查DW表,得到D_{L},D_{u}
\rhoDW自相关性
-14完全负相关
(-1,0)(2,4)负自相关
02无自相关
(0,1)(0,2)正自相关
10完全正相关

 

DW取值范围自相关性
0\leqslant DW\leqslant d_{L}误差项\varepsilon _{1},\varepsilon _{2},\varepsilon _{3},...,\varepsilon _{n},存在自相关性(正)
d_{L}\leqslant DW\leqslant d_{U}不能判断是否存在自相关性
d_{U}\leqslant DW\leqslant 4-d_{U}误差项\varepsilon _{1},\varepsilon _{2},\varepsilon _{3},...,\varepsilon _{n},不存在自相关性
4-d_{U}\leqslant DW\leqslant 4-d_{L}不能判断是否存在自相关性
4-d_{L}\leqslant DW\leqslant 4误差项\varepsilon _{1},\varepsilon _{2},\varepsilon _{3},...,\varepsilon _{n},存在自相关性(负)

 

DW检验法的缺点:

  • 存在两个不能确定的区域,一旦取值在该区域内,无法判断,需要借助其他方法
  • 只能用于随机扰动项的一阶序列相关的情形,对于高阶不适用,限制了适用范围
  • 上下界要求n>15,否则样本数过小,无法利用残差对自相关性的存在做出合理判断

消除自相关

消除自相关的办法有很多种,常见的迭代法、差分法、BOX-COX变换法等

1.3、异常值

在回归分析中,一些异常或者极端的观测值可能会引起较大的残差,影响回归拟合效果。

异常值成因消除方法
数据录音错误重新核实数据
数据测量错误重新测量数据
数据随机误差删除,或者重新观测数据
缺少重要自变量增加相应自变量
缺少观测数据增加观测数据
存在异方差消除异方差,如加权回归等
模型选择错误更改模型,如改成非线性回归

异常值的常见情况:

  • 因变量y出现异常值:一般认为残差超过\pm 3\bar{\sigma }的即为异常值

标准化残差:ZRE_{i}=e_{i}/\hat{\sigma }

删除残差:e_{(i))}=y_{i}-\hat{y}_{i}=e_{i}/(1-h_{ii})

学生化残差:SRE_{i}=e_{i}/\sigma \sqrt{1-h_{ii}},其中h_{ii}为杠杆值,为帽子矩阵H=X(X^{T}X)^{-1}X^{T}的主对角线元素

删除学生化残差:SRE_{(i)}=SRE_{i}((n-p-2)/(n-p-1-SRE_{i}^{2}))^{1/2}p为自变量个数,\left | SRE_{i} \right |> 3的观测值被认为是异常值

  • 自变量x出现异常值

h_{ii}为杠杆值,表示自变量第i次观测值与自变量平均值之间的距离,杠杆值h_{ii}大的样本点为强影响点,杠杆值的平均值\bar{h}=1/n\sum h_{ii}=(p+1)/n,当h_{ii}大于2倍或者3倍的平均值\bar{h}时,被认为是大的

库克距离:D_{i}=e_{i}^{2}/(p+1)\hat{\sigma }^{2}*h_{ii}/(1+h_{ii})^{2},反应了h_{ii}与残差的综合效应,当D_{i}< 0.5不是异常值,D_{i}> 1是异常值

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值