其通常是用来分析用了超过一个参数的统计模型,以判断该模型中的全部或一部分参数是否适合用来估计母体。
方差分析
在研究一个(或多个)分类型自变量与一个数值型因变量之间的关系时,方差分析就是其中主要方法之一。
如果在数据分析过程中,遇到的分类变量有多个,且每一分类变量对应的因变量的值形成的多个总体分布都服从于正态分布,并且各个总体的方差相等,那么比较各个总体均值是否一致的问题可以用方差分析来解决。
表面上看,方差分析是检验多个总体均值是否相等的统计分析方法,但本质上它所研究的是分类型自变量对数值型因变量的影响。
方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响
每次抽样为一个试验,所要检验的对象称为因素或因子,因素的不同表现称为水平或处理;
将在试验中回改变状态的因素称为因子,常用大写字母表示
因子所处的状态称为因子的水平,常用因子的字母加下标来表示
试验中所考察的指标,它是一个随机变量
如果一个试验中所考察的因子只有一个,那么这是单因子试验的问题
假定因子
A
A
A有
r
r
r各水平,在每个水平下指标的全体都构成一个总体,因此共有
r
r
r个总体。
假定第
i
i
i个总体服从均值为
μ
i
\mu_i
μi,方差为
σ
2
\sigma^2
σ2的正态分布,从该总体获得一个样本量为
m
m
m的样本
y
i
1
,
y
i
2
,
⋯
,
y
i
m
y_{i1},y_{i2},\cdots,y_{im}
yi1,yi2,⋯,yim,其观测值便是我们观测到的数据
i
=
1
,
2
,
⋯
,
r
i=1,2,\cdots,r
i=1,2,⋯,r,最后假定各样本是相互独立的
单因素方差分析主要是要检验如下假设:
H
0
:
u
1
=
u
2
=
⋯
=
u
r
H_0:u_1=u_2=\cdots=u_r
H0:u1=u2=⋯=ur
H
1
:
u
1
,
u
2
,
⋯
,
u
r
H_1:u_1,u_2,\cdots,u_r
H1:u1,u2,⋯,ur不全相等
当 H 0 H_0 H0不真时,表示不同水平下的指标的均值有显著差异,此时称因子 A A A是显著的,否则称因子 A A A不显著
方差分析是在相同方差假定的下检验多个正态均值是否相等的一种统计分析方法
在方差分析中,需要考察数据误差的来源
SST称为总离差平方和,或简称总平方和,它反映了全部试验数据之间的差异
SSM组间离差平方和,简称组间平方和,或称因素
A
A
A平方和
SSE组内离差平方和,反映了组内数据和组内平均的随机误差
S
S
T
=
S
S
M
+
S
S
E
SST=SSM+SSE
SST=SSM+SSE
在方差分析中,数据的总误差可以分解为组内误差和组间误差,如果因素的不同水平对因变量没有影响,那么在组间误差中只包含随机误差,而没有系统误差。这时组间误差与组内误差经过平均后的数据就应该接近于1,反之,如果因素不同水平对因变量有影响,那么组间误差除了包含随机误差外,还包含系统误差,这时组间误差平均后的数据就会大于组内误差平均后的数值,它们之间的数值就会大于1。当这个比值大到某种程度时,就认为因素的不同水平之间存在着显著差异,也就是自变量对因变量有显著影响。
双样本方差
设样本
x
1
,
x
2
,
⋯
,
x
n
1
x_1,x_2,\cdots,x_{n_1}
x1,x2,⋯,xn1来自正态总体
N
(
μ
1
,
σ
1
2
)
N(\mu_1,\sigma_1^2)
N(μ1,σ12),
y
1
,
y
2
,
⋯
,
y
n
2
y_1,y_2,\cdots,y_{n_2}
y1,y2,⋯,yn2来自正态总体
N
(
μ
2
,
σ
2
2
)
N(\mu_2,\sigma_2^2)
N(μ2,σ22),则此时关于双样本方差检验为:
F
=
s
1
2
s
2
2
F=\frac{s_1^2}{s_2^2}
F=s22s12
当
σ
1
2
=
σ
2
2
\sigma_1^2=\sigma_2^2
σ12=σ22时,服从
F
(
n
1
−
1
,
n
2
−
1
)
F(n_1-1,n_2-1)
F(n1−1,n2−1)
方差分析(ANOVA)又称“变异数分析”或“F检验”,用于两个及两个以上样本均数差别的显著性检验
方差分析的目的是判断差异是不可控的随机因素,还是可控因素。
方差分析的基本思想是:通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。
原理
方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个:
(1) 实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和的总和表示,记作SSb,组间自由度dfb。
(2) 随机误差,如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示, 记作SSw,组内自由度dfw。
总偏差平方和 SSt = SSb + SSw。
组内SSw、组间SSb除以各自的自由度(组内dfw =n-m,组间dfb=m-1,其中n为样本总数,m为组数),得到其均方MSw和MSb,一种情况是处理没有作用,即各组样本均来自同一总体,MSb/MSw≈1。另一种情况是处理确实有作用,组间均方是由于误差与不同处理共同导致的结果,即各样本来自不同总体。那么,MSb>>MSw(远远大于)。
MSb/MSw比值构成F分布。用F值与其临界值比较,推断各样本是否来自相同的总体 。
单因素方差分析
x
‾
‾
=
∑
i
=
1
k
∑
j
=
1
n
i
x
i
j
∑
i
=
1
k
n
=
∑
i
=
1
k
n
i
x
‾
i
∑
i
=
1
k
n
\displaystyle \overline {\overline x} =\displaystyle \frac{\sum_{i=1}^k\sum_{j=1}^{n_i}x_{ij}}{\sum_{i=1}^kn} = \frac{\sum_{i=1}^kn_i \overline x_i}{\sum_{i=1}^kn}
x=∑i=1kn∑i=1k∑j=1nixij=∑i=1kn∑i=1knixi
总平方和反应全部观察值的离散状况SST
S
S
T
=
∑
i
=
1
k
∑
j
=
1
n
i
(
x
i
j
−
x
‾
‾
)
2
SST=\sum_{i=1}^k\sum_{j=1}^{n_i}(x_{ij}-\overline {\overline x})^2
SST=i=1∑kj=1∑ni(xij−x)2
组间平方和反映各总体的样本均值之间的差异程度SSA
S
S
A
=
∑
i
=
1
k
∑
j
=
1
n
i
(
x
‾
i
−
x
‾
‾
)
2
\displaystyle SSA=\sum_{i=1}^k\sum_{j=1}^{n_i}(\overline x_i-\overline {\overline x})^2
SSA=i=1∑kj=1∑ni(xi−x)2
M
S
A
=
S
S
A
k
−
1
MSA=\frac{SSA}{k-1}
MSA=k−1SSA
组内平方和反映每个样本各观察者的离散状况SSE
S
S
E
=
∑
i
=
1
k
∑
j
=
1
n
i
(
(
x
i
j
−
x
‾
i
)
2
SSE=\sum_{i=1}^k\sum_{j=1}^{n_i}((x_{ij}-\overline x_i)^2
SSE=i=1∑kj=1∑ni((xij−xi)2
M
S
E
=
S
S
E
n
−
k
MSE=\frac{SSE}{n-k}
MSE=n−kSSE
F = M S A M S E ~ F ( k − 1 , n − k ) F=\frac{MSA}{MSE} \text{\textasciitilde} F(k-1,n-k) F=MSEMSA~F(k−1,n−k)
F分布
设
X
~
χ
2
(
n
1
)
,
Y
~
χ
2
(
n
2
)
X \text{\textasciitilde} \chi^2(n_1),Y \text{\textasciitilde} \chi^2(n_2)
X~χ2(n1),Y~χ2(n2), 且
X
X
X与
Y
Y
Y相互独立,则随机变量
F
=
X
/
n
1
Y
/
n
2
F=\frac{X/n_1}{Y/n_2}
F=Y/n2X/n1
所服从的分布称为自由度为
(
n
1
,
n
2
)
(n_1,n_2)
(n1,n2)的F分布,记作
F
~
F
(
n
1
,
n
2
)
F \text{\textasciitilde} F(n_1,n_2)
F~F(n1,n2)
χ 2 \chi ^2 χ2分布,设独立随机变量 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn均服从标准正态分布 N ( 0 , 1 ) N(0,1) N(0,1),则随机变量 χ 2 = ∑ i = 1 n χ i 2 \displaystyle \chi ^2 =\sum_{i=1}^n{\chi_i}^2 χ2=i=1∑nχi2的分布称为服从自由度为 n n n的 χ 2 \chi^2 χ2分布,记作 χ 2 ~ χ 2 ( n ) \chi^2 \text{\textasciitilde} \chi^2(n) χ2~χ2(n)分布
SST 总平方和反映全部观察值的离散状况
SSA 组间平方和反映各总体的样本均值之间的差异程度
SSE 组内平方和反映每个样本各观察值的离散状况
MSA 组间均方
MSE 组内均方
F
=
M
S
A
/
k
−
1
M
S
E
/
n
−
k
F=\frac{MSA/k-1}{MSE/n-k}
F=MSE/n−kMSA/k−1
检验统计量
根据中心极限定理,样本均值
x
‾
\overline x
x服从正态分布,
x
‾
~
N
(
u
,
σ
2
n
)
\overline x \text{\textasciitilde} N(u,\frac{\sigma^2}{n})
x~N(u,nσ2)
x
‾
−
u
σ
2
n
~
N
(
0
,
1
)
\frac{\overline x - u}{\sqrt{\frac{\sigma^2}{n}}} \text{\textasciitilde} N(0,1)
nσ2x−u~N(0,1)