Chapter 8 ANOVA
本篇是第八章,内容是方差分析。前一段考试,汇报,作业。忙不过来,停更了一段时间,现在重新开始更这一部分内容。方差分析是很多实验的基础以及很重要的分析手段,这一章内容相比较而言比较多。
1.方差分析的引论
方差分析其实对我们来说并不陌生,因为大学搞生态的那群同学,实验中无数次出现了单方差因素分析的方法。那么方差分析究竟是什么呢?从引论来说,我们举个跟地学领域相关的例子。
不同地貌对土壤有机质是否有影响?
简单地说方差分析实质适合分析的是一系列数值型数据存在某个属性(也可以是某些),然后这个属性可以按照一定的规则分成几个类别(或者叫水平),我们想了解的就是,不同类别或者不同水平的这个数值是否存在显著性差异。简单的理解,它是处理分类型数据的。
这里需要跟上一章提到的拟合优度检验、后面讲到的回归分析做些区别,拟合优度检验通常是分析两个分类变量的关系,回归分析则分析的是一个数值型变量(或多个数值型变量)对一个数值型变量的影响(或者说二者的关系)。而方差分析则是分析一个分类变量(或多个分类变量)对于一个数值变量的影响(或者说二者的关系)。
这里给出一些定义和术语(不喜好数学的同学可以跳过,但请记住我上面的内容):
方差分析(Analysis of Variance,ANOVA)
研究分类型自变量对数值型因变量的影响
一个或多个分类型自变量
两个或多个 (k 个) 处理或分类
一个数值型因变量
通过检验多个总体均值是否相等来判断是否有显著影响
通过分析数据的误差判断各总体均值是否相等
有单因子方差分析和双因子方差分析
单因子方差分析:涉及一个分类型自变量
双因子方差分析:涉及两个分类型自变量
方差分析 vs 假设检验
(1)假设检验:一次只能研究两个样本
需要比较的次数随因子的数量增多而增多;
第一类错误发生的可能性增大。
(2)方差分析:同时分析多个样本
提高检验效率;
将所有信息结合在一起, 增加了分析的可靠性。
1.1 方差分析的部分概念:
因子或因素 (factor)——所要检验的对象,要分析行业对投诉次数是否有影响, 行业是要检验的因子或因素。
水平或处理(treatment):因子的不同表现,零售业、 旅游业、 航空公司、 家电制造业就是因子的处理。
观察值:在每个因子处理下得到的样本数据,每个行业被投诉的次数就是观察值。
试验:涉及一个因子多水平, 可称为单因子多处理的试验。
总体:因子的每一个处理看作是一个总体。
样本数据:观察值可以看作是从着多个总体中抽取的样本数据
也就是说分类变量是因子或因素,而分的类别就可以称为水平或处理,观察值则是数值型变量。试验就是就是分类的过程,总体其实就是水平,样本数据就是观测值。
接下来讲讲方差分析的基本思想和原理。
1.2 方差分析的基本思想和原理
方差分析的基本思想和原理基于两类误差。也就是随机误差和系统误差。
随机误差——因子的同一处理(总体)下, 样本各观察值之间的差异,这种差异可以看成是随机因素的影响, 称为随机误差。
系统误差——因子的不同处理(不同总体)下, 各观察值之间的差异,这种差异可能是由于抽样的随机性所造成的, 也可能是由于行业本身所造成的, 后者所形成的误差是由系统性因素造成的, 称为系统误差。
所以方差分析的实质是——比较两类误差,以检验均值是否相等;比较的基础是方差比;如果系统(处理)误差明显地不同于随机误差,则均值就是不相等的;反之,均值就是相等的。
这里数据的误差用平方和(sum of squares)表示。
组内平方和(within groups)——因子的同一处理(同一个总体)下样本数据的平方和。组内平方和只包含随机误差。
组间平方和(between groups)——因子的不同处理(不同总体)下各样本之间的平方和。组间平方和既包括随机误差, 也包括系统误差。
所以若原假设成立, 组间平方和与组内平方和经过平均后的数值就应该很接近, 它们的比值就会接近1。
若原假设不成立, 组间平方和平均后的数值就会大于组内平方和平均后的数值, 它们之间的比值
就会大于1。
当这个比值大到某种程度时, 就可以说不同处理之间存在着显著差异, 也就是自变量对因变量有影响。
1.3 方差分析的基本假定
(1)每个总体都应服从正态分布:
对于因子的每一个处理, 其观察值是来自服从正态分布总体的简单随机样本。
(2)各个总体的方差必须相同:
各组观察数据是从具有相同方