在GLM建模中,我们会遇到两种残差。
Pearson残差:
以及标准化Pearson残差:
其实,标准化的Pearson残差就是在Pearson残差的基础上除以sqrt(φ(1-hi)) ,这其实暗含了两个调整:
Scaling-将残差的标准差调整至1;
De-leveraging-将残差通过杠杆系数hi进行去杠杆化。
比较有趣的是第二个去杠杆化的调整,为什么要这么做呢?
为方便阐述和理解,我们回到最简单的情形-普通线性回归。先看一个简单的例子,下表中是一个模拟的数据,其中的一些要点如下:
a,b是真实的截距和斜率;
x通常在1左右变动,而观测8是一个关于x的异常值;
y=a+b*x+norm(0,1),在直线附近加上随机扰动生成;
sigma^2=SSR/(n-p)=残差平方和/(8-2);
H是帽子矩阵,hi是其第i个对角线元素。