回归模型中的残差诊断与变异分析 - swirl_courses教程解析-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00890/article/details/148524999

回归模型中的残差诊断与变异分析 - swirl_courses教程解析

在回归分析中，残差（residuals）是指观测值与模型预测值之间的差异。残差分析是评估回归模型质量的重要手段，它能帮助我们识别模型假设是否成立、数据中是否存在异常值等问题。

异常值（outliers）可以分为两类：

通过比较包含与不包含异常值的回归线（通常用不同颜色表示），我们可以直观地判断异常值的影响程度。

最基础的诊断图是残差 vs 拟合值图，使用R中的plot(fit, which=1)命令生成。理想情况下，残差应该：

当图中出现明显模式（如线性趋势）时，可能表明模型存在问题。

衡量单个数据点对回归系数影响的方法：

# 计算帽子值的示例代码
resno <- out2[1, "y"] - predict(fitno, out2[1,])
hat_value <- 1 - resid(fit)[1]/resno

由于不同数据点的残差可能具有不同的方差，我们需要进行标准化处理：

标准化残差：调整每个残差，考虑其个体方差

sigma <- sqrt(deviance(fit)/df.residual(fit))
rstd <- resid(fit)/(sigma * sqrt(1-hatvalues(fit)))

使用rstandard()函数可直接计算

学生化残差：更精确的标准化方法，使用排除当前点的模型来计算标准差
```
sigma1 <- sqrt(deviance(fitno)/df.residual(fitno))
studentized_resid <- resid(fit)[1]/(sigma1*sqrt(1-hatvalues(fit)[1]))
```
使用rstudent()函数可直接计算

Cook距离是衡量单个数据点对整体模型影响程度的综合指标，计算所有预测值在包含与不包含该点时的差异：

dy <- predict(fitno, out2)-predict(fit, out2)
cooks_distance <- sum(dy^2)/(2*sigma^2)

使用cooks.distance()函数可直接计算，并通过plot(fit, which=5)可视化。

通过系统性的残差诊断，我们可以更好地理解模型的局限性，识别潜在问题，并最终改进回归模型的质量和可靠性。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考