正态性与方差齐性
正态性,严格来说是残差要符合正态分布,不过我们经常对因变量直接进行正态性检验,在多数情况下两者是差不多的
方差齐性,就是方差相等,意思是对于每一个x取值,因变量(严格来说是残差)的方差基本相等。
用统计检验方法判断正态性
-
基于峰度与偏度的SW检验
SW检验的思想是基于偏离峰度或/和偏度。峰度通俗讲就是分布的形状是平坦还是尖峰;偏度则反映了分布形状是否对称。
正态分布的峰度和偏度均为0,如果峰度大于0则提示为尖峰,如果峰度小于0则提示为平坦峰;如果偏度大于0则提示为右偏态,如果偏度小于0则为左偏态。
SW检验反映了基于峰度和/或偏度对正态分布的偏离,该值介于0和1之间,越接近于1,则说明越符合正态分布。越接近于0,则说明越偏离正态分布。 -
基于拟合优度的KS/CVM/AD检验
基于拟合优度的思想就是计算理论正态分布与基于实际数据得到的分布之间的差异。这几种方法不仅可以用于正态分布的拟合,也可用于其他分布的拟合优度检验。
正态分布的拟合优度检验思路是:先求出正态分布的累积概率函数(CDF),然后看一下样本数据与该函数的区别有多大。如果两者的区别很小,则说明样本数据的分布接近于正态分布,可认为服从正态分布;否则则认为不服从正态分布。
结论:
如果例数在2000以内,SW检验的效率最高,一般建议作为首选方法。而基于拟合优度的3种检验方法中,AD效率最高,KS效率最低。
- 用描述的方法判断正态性
常见的判断正态性的描述方法有:- Q-Q图和P-P图
Q-Q图中,横坐标为正态分位数,纵坐标为实际数据的分位数。其思想是比较理论分位数和实际分位数的差距,如果理论分位数和实际分位数没什么区别,那么在图中所有的点应该在一条直线上,如果差别很大,就会偏离直线较远。
P-P图中,用累计概率作为坐标轴,横坐标为理论的累计概率分布,纵坐标为样本数据的累计概率分布。判断条件如上。 - 茎叶图
- 利用四分位数间隔和标准差进行简单判断
- Q-Q图和P-P图
方差分析中的方差齐性判断
在方差分析中,所谓方差齐性检验,就是判断两组或多组的方差是否相等。
-
方差比(F ratio)
方差比主要用于两组方差齐性的检验,求出两组方差的方差,用较大的方差除以较小的方差,得到F值。如果F值很大,则说明两组方差差别较大 -
Hartley检验
Hartley检验主要用于多组方差齐性的检验,求出各组的方差,用最大的方差除以最小的方差,得到F值。如果F值很大,则说明两组方差差别较大
以上两种方法有一个局限性就是对正态性很敏感,如果数据偏离正态,则结果可能偏差很大。此时应该考虑使用levene检验 -
Levene检验的思想就是基于每一组内的每一观测值与各自组均值的偏离程度。这里偏离程度有两种度量方式:插值的绝对值或差值的平方,而组均值可以用平均值、中位数、截取平均数(去掉最大或最小的几个值后的平均值)
最初的Levene检验只用平均数作为组均值,后来采用中位数和截取平均值,称为BF法。
后来O‘Brien(1979)提出在Levene中的偏差加一个调节参数。该参数的作用是根据实际数据的峰度大小,调节W值的大小,使之适应实际数据的分布情况。多数软件默认为0.5。
结论:
在实际应用中,如果数据符合正态分布,则采用Barlett法(Levene法和BF法也是没问题的);但如果偏离正态,则建议采用Levene法(如果偏离不是很严重)或者采用BF法(偏离特别严重)。 当然也可以从数据的箱线图来直观的观察数据的分布情况