回归分析:MATLAB 中的数据处理与模型评估
1. 标准化残差与异常值检测
在回归分析中,标准化残差是检测异常值的重要工具。标准化残差依赖于原始残差、均方误差(MSE)和杠杆值 $h_{ii}$。其优势在于方差为 1,便于在不同模型拟合中进行比较。通常,数据集中标准化残差绝对值超过 3 的观测值被视为异常值,但部分教科书将阈值设为 2。从结果来看,若标准化残差绝对值均未超过 3,则表明数据中无异常值,数据符合线性模型。
1.1 学生化残差
学生化残差是原始残差除以独立的残差标准差估计值。观测值 $i$ 的残差除以基于除该观测值外所有观测值的误差标准差估计值。因此,学生化残差有时也被称为外部学生化残差。其公式与标准化残差相近,区别在于标准化残差使用基于所有观测值的 MSE,而学生化残差使用剔除第 $i$ 个观测值后估计模型的均方误差。与标准化残差类似,学生化残差绝对值大于 3 或 2 的观测值可视为异常值,且学生化残差在检测 $y$ 观测值的异常值方面更有效。
在 MATLAB 中,可使用以下代码计算这些残差:
r = model.Residualse.Raw
r = model.Residuals.Pearson
r = model.Residuals.Standardized
r = model.Residuals.Studentized
2. 线性回归模型的构建与分析
当线性回归模型的假设满足,且对残差的正态性、常数方差和独立性进行检查后,可继续求解直线方程。
超级会员免费看
订阅专栏 解锁全文
1175

被折叠的 条评论
为什么被折叠?



