0 回顾:回归模型的基本假设
线性回归有几个基本的前置假设条件
- 零均值:随机误差项均值为0 ,保证未考虑的因素对被解释变量没有系统性的影响
- 同方差:随机误差项方差相同,在给定
的情况下,
的条件方差为某个常数
- 无自相关:两个
之间不相关,
- 正态分布:
符合正态分布
- 解释变量
是非随机变量,其观测值是常数
- 解释变量之间不存在精确的线性关系
- 样本个数要多与解释变量的个数
1、常见的不满足基本假设的情况
1.1、异方差
回归模型的中的异方差是指随机误差项的方差不是一个常数,而是随着自变量的取值变化而变化。
由于不满足回归分析中的同方差的前提假设,异方差将可能带来以下几个问题:
-
对使用最小二乘法(OLS)求解参数时 ,参数估计值虽然无偏,但不是最小方差线性无偏估计
-
参数显著性检验失效
-
回归方程的应用效果不理想
造成异方差的常见原因:
- 模型缺少了某些解释变量,缺省变量本身的方差被包含在了随机误差的方差中


- 模型本身选取有误,比如原来是非线性的,结果使用了线性模型


- 其他原因,包括不限于样本量过少、测量误差、异常数据、时序分析或者使用面板数据等
异方差的检验:
残差图分析:
- 坐标选择:纵坐标为残差
,横坐标视情况而定,可选择:
或者观测时间或序号
- 判断:散点随机散布、无规律则表明满足基本假设,有明显规律或者呈现一定趋势,则有异方差性




等级相关系数法:又称斯皮尔曼Spearman检验
第一步:做关于
的普通最小二乘法回归,求出
的估计值
第二步:取的绝对值
,把
和
按升序或者降序排列,分成等级(序号),
和
分别有一个序号,其差记作
,
计算出等级相关系数:
n为样本个数
第三步:做等级相关系数的显著性检验,
时进行
检验,构造
统计量。
如果,可以认为异方差不存在,反之,可以认为
和
之间存在系统关系,存在异方差的问题。
其他常见的检验方法:
- 相关图分析:X-Y的散点图,看是否存在明显的扩大,缩小,复杂趋势等
- Park检验与Gleiser检验:选择关于x的不同函数形式,对方程进行估计并进行显著性验证,如果存在某种函数形式使得方程成立,则说明原模型存在异方差性。
- Goldfeld-Quandt检验:以引起异方差的解释变量的大小为顺序,去除中间若干值,生成两个子样本集,对两个子样本集进行回归,计算残差和,构造统计量,
- ......
消除异方差
消除异方差常见的方法有:加权最小二乘法、BOX-COX变换法、方差稳定性变换法等
以一元线性回归最小二乘法估计参数为例 ,其 离差平方和公式:
存在的问题:
每个观测值(即每个样本)的权重相同(都为1),同方差时,每个观测值在离差平方和中的地位是一样的,但是当存在异方差时,方差大的观测值,对平方和的影响也大,OLE求得的回归线,会被拉向方差大的样本点,导致方差小的样本拟合效果差。
此时考虑调整权重,以平衡各个观测值的作用,即为加权最小二乘法,其离差平方和公式变为
: i为第i个观测值得权重值。
(1)
(2)
(1)(2)求解得到:
1.2、自相关
回归模型中的自相关是指随机误差项的协方差,即变量前后数值之间存在相关关系。
由于不满足回归分析中的不相关的前提假设,自相关将可能带来以下问题:
- 对使用最小二乘法(OLS)求解参数时,参数估计值虽然无偏,但是OLS估计量的方差不是最小的,估计量不是最优线性无偏估计量(BLUE)
- OLS估计量的方差是有偏的。用来计算方差和OLS估计量标准误差的公式会严重低估真实的方差和标准误差,从而导致
统计量的值变大,使某个系数显著不为0。
- 显著性检验失败,包括
检验和
检验
- 存在序列相关时,最小二乘估计量对抽样波动非常敏感
- 回归方程的应用效果不理想,会带来较大的方差甚至错误
自相关的常见成因:
- 模型遗漏关键变量,被遗漏变量在时间顺序上存在相关性
- 错误的回归函数形式
- 蛛网现象。一般指一个变量对另一个变量的反应是不同步,迟滞一定的时间:
- 对数据加工整理而导致误差项之间出现自相关,比如处理序列数据时采用了不恰当的差分变换
自相关的检验:
图示检验法:
- 绘制
的散点图,如果大部分落在第二、四象限,则表明随机扰动项
存在负相关,如果大部分落在第一、三象限,则表明存在正相关
- 按时间顺序绘制回归残差项
的图形,如果随着
的变化,有规律的呈现锯齿状或者循环形状的变化,表明存在序列相关。
自相关系数法:
根据计算自相关系数
,其取值范围
,接近1时表示误差序列存在正相关,接近-1时表示存在负相关。
DW(Durbin - Watson)检验法:适用于小样本,只能检验随机扰动项具有一阶自回归形式的序列相关问题
- 随机扰动项的一阶自回归形式为:
- 构造原假设为
- 构造DW统计量:
,其中
,查DW表,得到
| 自相关性 | ||
| -1 | 4 | 完全负相关 |
| (-1,0) | (2,4) | 负自相关 |
| 0 | 2 | 无自相关 |
| (0,1) | (0,2) | 正自相关 |
| 1 | 0 | 完全正相关 |
| 自相关性 | |
| 误差项 | |
| 不能判断是否存在自相关性 | |
| 误差项 | |
| 不能判断是否存在自相关性 | |
| 误差项 |
DW检验法的缺点:
- 存在两个不能确定的区域,一旦取值在该区域内,无法判断,需要借助其他方法
- 只能用于随机扰动项的一阶序列相关的情形,对于高阶不适用,限制了适用范围
- 上下界要求
,否则样本数过小,无法利用残差对自相关性的存在做出合理判断

消除自相关
消除自相关的办法有很多种,常见的迭代法、差分法、BOX-COX变换法等
1.3、异常值
在回归分析中,一些异常或者极端的观测值可能会引起较大的残差,影响回归拟合效果。
| 异常值成因 | 消除方法 |
| 数据录音错误 | 重新核实数据 |
| 数据测量错误 | 重新测量数据 |
| 数据随机误差 | 删除,或者重新观测数据 |
| 缺少重要自变量 | 增加相应自变量 |
| 缺少观测数据 | 增加观测数据 |
| 存在异方差 | 消除异方差,如加权回归等 |
| 模型选择错误 | 更改模型,如改成非线性回归 |
异常值的常见情况:
- 因变量
出现异常值:一般认为残差超过
的即为异常值
标准化残差:
删除残差:
学生化残差:,其中
为杠杆值,为帽子矩阵
的主对角线元素
删除学生化残差:,
为自变量个数,
的观测值被认为是异常值
- 自变量
出现异常值
为杠杆值,表示自变量第
次观测值与自变量平均值之间的距离,杠杆值
大的样本点为强影响点,杠杆值的平均值
,当
大于2倍或者3倍的平均值
时,被认为是大的
库克距离:,反应了
与残差的综合效应,当
不是异常值,
是异常值
本文回顾了回归模型的基本假设,包括零均值、同方差、无自相关和正态分布。接着,讨论了模型在实际中常见的不满足假设的情况,如异方差性及其检验方法,如残差图分析和等级相关系数法。此外,还介绍了自相关问题,包括自相关的影响和检验方法,如DW检验。最后,提到了异常值的识别和处理,如通过删除异常残差或应用学生化残差来改善模型拟合。
7818

被折叠的 条评论
为什么被折叠?



