线性模型选择与诊断全解析
1. 简单线性模型的初步分析
在分析数据时,我们首先关注到左上角的图展示了数据以及简单线性模型的直线。该直线清晰地捕捉到了数据的上升趋势,但同时也暗示数据可能存在一定的曲率。通过诊断残差与拟合值的图(右上角),我们发现仅考虑线性趋势的模型并不充分,其呈现的系统性模式对线性模型误差的假设提出了质疑。
而底部的图展示了基于二次模型的残差与拟合值的关系。在“高度”变量中加入二次项后,残差中的明显曲线得到了消除。不过,最新的残差 (e_i) 仍呈现出类似波浪的系统性行为,这或许提示我们尝试使用三次模型,但由于样本量较小,实现起来存在一定困难。
2. 评估误差的正态性
为了评估误差是否服从正态分布,我们可以使用正态 QQ 图。在 R 语言中,对 lm 对象调用 plot 函数并设置 which = 2 ,就能生成标准化残差的正态分位数 - 分位数图。以 car.step 模型为例,输入以下代码:
plot(car.step, which = 2)
我们按照之前的方法解读残差的 QQ 图。灰色对角线代表真实的正态分位数,绘制的点则是估计回归误差的相应数值分位数。若数据服从正态分布,这些点应接近直线。对于 car.step 回归模型,点大致遵循理论正态分位数的路径,虽有一定偏差,但无明显的非正态迹象。
除了 QQ 图,我们还可以使用著名的 Shapiro - Wilk
超级会员免费看
订阅专栏 解锁全文
1674

被折叠的 条评论
为什么被折叠?



