在有些实际问题中,无法预知总体服从何种分布,而希望根据样本来检验对总体分布所提出的假设,或者想通过样本来检验对总体之间的关系所提出的假设。这一类问题就是非参数假设检验问题。非参数假设检验包括分布假设检验、相同性检验和独立性检验等。这里主要介绍分布假设检验。
分布假设检验
分布假设检验问题可表述为:设
X
1
,
.
.
.
,
X
n
X_1,...,X_n
X1,...,Xn 为总体
X
X
X 的样本,欲据此样本检验假设
H
0
:
X
的分布函数
F
=
F
0
H_0:X\ 的分布函数\ F=F_0
H0:X 的分布函数 F=F0 这里
F
0
F_0
F0 是一个已知的分布函数,通常称
F
0
F_0
F0 为理论分布。
检验假设 H 0 H_0 H0 的基本思想是用样本 X 1 , . . . , X n X_1,...,X_n X1,...,Xn 去拟合 F 0 F_0 F0。根据拟合的优良程度来推断假设 H 0 H_0 H0 成立与否。
把总体
X
X
X 的所有可能值的集合
S
S
S 分成
r
r
r 个两两不相交的子集
S
1
,
S
2
,
.
.
.
,
S
r
S_1,S_2,...,S_r
S1,S2,...,Sr,当
H
0
H_0
H0 成立时,记
p
i
=
P
F
0
{
X
∈
S
i
}
,
i
=
1
,
.
.
.
,
r
p_i=P_{F_0}\{X\in S_i\},i=1,...,r
pi=PF0{X∈Si},i=1,...,r 又记
m
i
=
X
1
,
.
.
.
,
X
n
落在
S
i
内的频数,
i
=
1
,
2
,
.
.
.
,
r
m_i=X_1,...,X_n\ 落在 S_i 内的频数,i=1,2,...,r
mi=X1,...,Xn 落在Si内的频数,i=1,2,...,r 则
(
m
i
n
−
p
i
)
2
(\frac{m_i}{n}-p_i)^2
(nmi−pi)2 刻画了样本落在
S
i
S_i
Si 内的频率与总体
X
X
X 在
S
i
S_i
Si 内取值的概率的偏差。皮尔逊用
(
m
i
n
−
p
i
)
2
(\frac{m_i}{n}-p_i)^2
(nmi−pi)2 的加权和
K
n
=
∑
i
=
1
r
n
p
i
(
m
i
n
−
p
i
)
2
=
∑
i
=
1
r
(
m
i
−
n
p
i
)
2
n
p
i
K_n=\sum_{i=1}^r \frac{n}{p_i}\left(\frac{m_i}{n}-p_i\right)^2 = \sum_{i=1}^r \frac{(m_i-np_i)^2}{np_i}
Kn=i=1∑rpin(nmi−pi)2=i=1∑rnpi(mi−npi)2 来刻画样本
X
1
,
.
.
.
,
X
n
X_1,...,X_n
X1,...,Xn 拟合
F
0
F_0
F0 的优度,并于 1900 年证明了如下的定理:
当假设 H 0 : X 的分布函数 F = F 0 H_0:X\ 的分布函数\ F=F_0 H0:X 的分布函数 F=F0 成立时, K n K_n Kn 当 n → ∞ n\to \infty n→∞ 时具有极限分布 χ 2 ( r − 1 ) \chi^2(r-1) χ2(r−1)
通常称定理中的统计量 K n K_n Kn 为皮尔逊 χ 2 \chi^2 χ2 统计量。
K n K_n Kn 较小表示样本对 F 0 F_0 F0 拟合得好, K n K_n Kn 较大表示样本对 F 0 F_0 F0 拟合得不好,因此假设 H 0 H_0 H0 的拒绝域应取 W = { K n ≥ c } W=\{K_n\ge c\} W={Kn≥c} 的形式。对给定的水平 α \alpha α,查 χ 2 ( r − 1 ) \chi^2(r-1) χ2(r−1) 分布表,得 χ α 2 ( r − 1 ) \chi^2_\alpha(r-1) χα2(r−1),由此可得检验规则:若 K n ≥ χ α 2 ( r − 1 ) K_n\ge \chi^2_\alpha(r-1) Kn≥χα2(r−1),则拒绝 H 0 H_0 H0,否则接受 H 0 H_0 H0。
在分布假设检验中,有时只能假定理论分布的函数类型,其中还含有未知参数,即,要由样本
X
1
,
.
.
.
,
X
n
X_1,...,X_n
X1,...,Xn 检验假设
H
0
:
X
的分布函数
F
=
F
θ
H_0:X\ 的分布函数\ F=F_\theta
H0:X 的分布函数 F=Fθ 这里
F
θ
F_\theta
Fθ 是一个已知的分布类型,其中含有未知参数向量
θ
=
(
θ
1
,
.
.
.
,
θ
k
)
T
\boldsymbol{\theta}=(\theta_1,...,\theta_k)^T
θ=(θ1,...,θk)T。
在这种情况下,当 H 0 H_0 H0 成立且 n n n 充分大时,近似的有 K n ∼ χ 2 ( r − k − 1 ) K_n \sim \chi^2(r-k-1) Kn∼χ2(r−k−1),其中 r r r 为分组的个数, k k k 为 θ \boldsymbol{\theta} θ 的维数(即分布中所含未知参数的个数),并且 r > k + 1 r>k+1 r>k+1。于是可得修正后的检验规则:若 K n ≥ χ α 2 ( r − k − 1 ) K_n\ge \chi^2_\alpha(r-k-1) Kn≥χα2(r−k−1),则拒绝 H 0 H_0 H0,否则接受 H 0 H_0 H0。
χ 2 \chi^2 χ2 拟合检验具有许多优点。比如,无论总体 X X X 是离散的还是连续的,无论总体 X X X 是一维的还是多维的,也无论原假设的理论分布中是否含有未知参数,都适合用 χ 2 \chi^2 χ2 拟合检验 对总体的分布作假设检验。不过,它也存在不够精细的缺陷。
柯尔莫哥洛夫检验克服了 χ 2 \chi^2 χ2 拟合检验的这一缺陷,它能够真正检验出 F F F 是否与某个已知分布 F 0 F_0 F0 处处相同。不过,它只适用于总体的分布函数为连续函数的情形,而且一般还要求假设中的理论分布不含未知参数。
参考文献
[1] 《应用数理统计》,施雨,西安交通大学出版社。