第六章 非参数假设检验(2)
1.拟合优度检验
拟合优度,即利用总体XXX中抽取的样本X1,⋯ ,XnX_1,\cdots,X_nX1,⋯,Xn,来检验H0:r.v. X的分布为FH_0:\text{r.v. }X的分布为FH0:r.v. X的分布为F这一假设。然而,对于总体分布,用符号、不符合这种说法未免过于绝对,因此通常是提出一个介于0到1之间的数值来衡量拟合的优劣程度,称作拟合优度。
拟合优度一般如此定义:p(d0)=P(D≥d0∣H0)p(d_0)=P(D\ge d_0|H_0)p(d0)=P(D≥d0∣H0),这里DDD是一种样本之于给定分布的偏差,是一个统计量,有许多的定义方式;d0d_0d0就是统计量DDD对于给定样本的观测值。
当理论分布完全已知的时候,可以采用Pearson χ2\chi^2χ2检验,它又分为几种类型。
-
随机变量XXX为离散型,且只取有限个值a1,⋯ ,ara_1,\cdots,a_ra1,⋯,ar的情形。
设X1,⋯ ,XnX_1,\cdots,X_nX1,⋯,Xn为从总体XXX中抽取的简单样本,理论分布为
F:(a1a2⋯arp1p2⋯pr) F:\left( \begin{array}{c} a_1&a_2&\cdots&a_r\\ p_1&p_2&\cdots&p_r \end{array} \right) F:(a1p1a2p2⋯⋯arpr)
且p1,⋯ ,prp_1,\cdots,p_rp1,⋯,pr已知,∑i=1rpi=1\sum_{i=1}^r p_i=1∑i=1rpi=1,检验的问题表示为
H0:P(X=ai)=pi,i=1,⋯ ,r H_0:P(X=a_i)=p_i,\quad i=1,\cdots,r H0:P(X=ai)=pi,i=1,⋯,r
设X1,⋯ ,XnX_1,\cdots,X_nX1,⋯,Xn中,等于aia_iai的个数为νi\nu_iνi(观察频数),按照分布FFF的理想情况,每一个aia_iai对应的理论频数应该是npinp_inpi,当nnn充分大的时候观察频数应该趋近于理论频数,因此取检验统计量为∑i=1rci(νi/n−pi)2\sum_{i=1}^rc_i(\nu_i/n-p_i)^2∑i=1rci(νi/n−pi)2,特别地,取ci=n/pic_i=n/p_ici=n/pi,得到
Kn=∑i=1r(νi−npi)2npi⟶Lχr−12 K_n=\sum_{i=1}^r \frac{(\nu_i-np_i)^2}{np_i}\stackrel{\mathscr L}{\longrightarrow }\chi^2_{r-1} Kn=i=1∑rnpi(νi−npi)2⟶Lχr−12
这样,当KnK_nKn过大,具体地说就是Kn>χr−12(α)K_n>\chi^2_{r-1}(\alpha)Kn>χr−12(α)时拒绝H0H_0H0。按照前面的方式定义拟合优度,就是
p(k0)=P(Kn≥k0∣H0)≈P(χr−12≥k0) p(k_0)=\mathbf P(K_n\ge k_0|H_0)\approx\mathbf P(\chi^2_{r-1}\ge k_0) p(k0)=P(Kn≥k0∣H0)≈P(χr−12≥k0) -
理论分布为任一确定分布的情形。
此时,取r−1r-1r−1个常数a0=−∞<a1<⋯<ar=∞a_0=-\infty<a_1<\cdots<a_r=\inftya0=−∞<a1<⋯<ar=∞,将数轴划分成rrr个子区间Ii=[ai−1,ai)I_i=[a_{i-1},a_i)Ii=[ai−1,ai)(负无穷处为开区间),并计算样本落在IiI_iIi上的概率pi=F(ai)−F(ai−1)p_i=F(a_i)-F(a_{i-1})pi=F(ai)−F(ai−1),将其作为理论概率。这样,就转化成了理论分布为有限维离散分布的情形。
-
理论分布带有未知参数的情形。
这时的假设就变成H0:r.v. X∼F(x,θ10,⋯ ,θs0)H_0:\text{r.v. }X\sim F(x,\theta_1^0,\cdots,\theta_s^0)H0:r.v. X∼F(x,θ10,⋯,θs0),也就是存在这样一组参数让总体符合分布。
对上一情况直接推广,设pj(θ)=P(X∈Ij)=F(aj;θ)−F(aj−1;θ)p_j(\boldsymbol \theta)=\mathbf P(X\in I_j)=F(a_j;\boldsymbol \theta)-F(a_{j-1};\boldsymbol \theta)pj(θ)=P(X∈Ij)=F(aj;θ)−F(aj−1;θ),类似地可以求出
Kn(θ)=∑j=1r(νi−npi(θ))2npi(θ) K_n(\boldsymbol \theta)=\sum_{j=1}^r \frac{(\nu_i-np_i(\boldsymbol \theta))^2}{np_i(\boldsymbol \theta)} Kn(θ)=j=1∑rnpi(θ)(νi−npi(θ))2
此时的Kn(θ)K_n(\boldsymbol \theta)Kn(θ)由于θ\boldsymbol \thetaθ的存在还不能作为统计量,所以要对θ\boldsymbol \thetaθ作出估计,用θ^\hat {\boldsymbol \theta}θ^代入Kn(θ)K_n(\boldsymbol \theta)Kn(θ),其中θ^\hat {\boldsymbol \theta}θ^也由样本X\boldsymbol XX使用极大似然方法估计出,并且有
Kn(θ^)⟶Lχr−1−s2 K_n(\hat {\boldsymbol \theta})\stackrel{\mathscr L}{\longrightarrow }\chi^2_{r-1-s} Kn(θ^)⟶Lχr−1−s2
这样,当Kn(θ^)K_n(\hat {\boldsymbol \theta})Kn(θ^)过大,即Kn(θ^)>χr−1−s2(α)K_n(\hat {\boldsymbol \theta})>\chi^2_{r-1-s}(\alpha)Kn(θ^)>χr−1−s2(α),则否定原假设。拟合优度自然就是p(k0∗)=P(Kn(θ^)≥k0∗)≈P(χr−1−s2≥k0∗)p(k_0^*)=\mathbf P(K_n(\hat{\boldsymbol \theta})\ge k_0^*)\approx\mathbf P(\chi^2_{r-1-s}\ge k_0^*)p(k0∗)=P(Kn(θ^)≥k0∗)≈P(χr−1−s2≥k0∗)。
2.列联表中的独立性检验
列联表主要是用于检验样本的两个属性之间是否独立的。假设总体中的每一个个体都可以按A,BA,BA,B属性分类,属性AAA有rrr个水平,分别是A1,⋯ ,ArA_1,\cdots,A_rA1,⋯,Ar;属性BBB有sss个水平B1,⋯ ,BsB_1,\cdots,B_sB1,⋯,Bs,这样,每个个体的观察结果为随机向量X=(X(1),X(2))X=(X^{(1)},X^{(2)})X=(X(1),X(2)),第XiX_iXi个个体的观察结果为(Ari,Bsi)(A_{r_i},B_{s_i})(Ari,Bsi)。一共有nnn个个体,且属性为(Ai,Bj)(A_i,B_j)(Ai,Bj)的个体有nijn_{ij}nij个,将数量列入表格,就做成r×sr\times sr×s列联表。要验证的假设是
H0:X(1),X(2)独立
H_0:X^{(1)},X^{(2)}独立
H0:X(1),X(2)独立
现在将AAA的水平记作1,⋯ ,r1,\cdots,r1,⋯,r,BBB的水平记作1,⋯ ,s1,\cdots,s1,⋯,s。如果记P(X(1)=i,X(2)=j)=pij\mathbf P(X^{(1)}=i,X^{(2)}=j)=p_{ij}P(X(1)=i,X(2)=j)=pij,如果H0H_0H0成立,则有
pij=P(X(1)=i,X(2)=j)=P(X(1)=i)P(X(2)=j)=pi⋅p⋅jpi⋅=∑j=1spij,p⋅j=∑i=1rpij
p_{ij}=\mathbf P(X^{(1)}=i,X^{(2)}=j)=\mathbf P(X^{(1)}=i)\mathbf P(X^{(2)}=j)=p_{i\cdot}p_{\cdot j}\\
p_{i\cdot}=\sum_{j=1}^sp_{ij},\quad p_{\cdot j}=\sum_{i=1}^r p_{ij}
pij=P(X(1)=i,X(2)=j)=P(X(1)=i)P(X(2)=j)=pi⋅p⋅jpi⋅=j=1∑spij,p⋅j=i=1∑rpij
所以原假设H0H_0H0转化为H0:pij=pi⋅p⋅j,∀i,jH_0:p_{ij}=p_{i\cdot}p_{\cdot j},\forall i,jH0:pij=pi⋅p⋅j,∀i,j。此时如果将pi⋅,p⋅jp_{i\cdot},p_{\cdot j}pi⋅,p⋅j视为参数,则独立的未知参数有s+r−2s+r-2s+r−2个,此时计算得χ2\chi^2χ2统计量的值为
Kn∗=n(∑i=1r∑j=1snij2ni⋅n⋅j−1)
K_n^*=n\left(\sum_{i=1}^r\sum_{j=1}^s\frac{n_{ij}^2}{n_{i\cdot}n_{\cdot j}}-1\right)
Kn∗=n(i=1∑rj=1∑sni⋅n⋅jnij2−1)
当H0H_0H0时且n→∞n\to \inftyn→∞时,有Kn∗⟶Lχ(r−1)(s−1)2K_n^*\stackrel{\mathscr L}{\longrightarrow }\chi^2_{(r-1)(s-1)}Kn∗⟶Lχ(r−1)(s−1)2,如果两个属性独立则Kn∗K_n^*Kn∗不应该过大。如果Kn∗>χ(r−1)(s−1)2(α)K_n^*>\chi^2_{(r-1)(s-1)}(\alpha)Kn∗>χ(r−1)(s−1)2(α)则否定假设,否则接受。检验的拟合优度是
p(k0)=P(Kn∗≥k0∣H0)≈P(χ(r−1)(s−1)2≥k0)
p(k_0)=\mathbf P(K_n^*\ge k_0|H_0)\approx\mathbf P(\chi^2_{(r-1)(s-1)}\ge k_0)
p(k0)=P(Kn∗≥k0∣H0)≈P(χ(r−1)(s−1)2≥k0)
特别地当r=s=2r=s=2r=s=2时,
Kn∗=n(n11n22−n12n21)2n1⋅n2⋅n⋅1n⋅2⟶Lχ12
K_n^*=\frac{n(n_{11}n_{22}-n_{12}n_{21})^2}{n_{1\cdot}n_{2\cdot}n_{\cdot1}n_{\cdot 2}}\stackrel{\mathscr L}{\longrightarrow }\chi^2_1
Kn∗=n1⋅n2⋅n⋅1n⋅2n(n11n22−n12n21)2⟶Lχ12
3.列联表中的齐一性检验
设有rrr个生产同一产品的工厂,生产sss个不同等级的产品,第iii个工厂的jjj等品率为pi(j)p_i(j)pi(j),现在从第iii个工厂取出ni⋅n_{i\cdot}ni⋅个产品,记录jjj等品nijn_{ij}nij个。齐一性检验检验的是rrr个工厂产品质量相同,即
H0:p1(j)=p2(j)=⋯=pr(j),j=1,2,⋯ ,s
H_0:p_1(j)=p_2(j)=\cdots=p_r(j),j=1,2,\cdots,s
H0:p1(j)=p2(j)=⋯=pr(j),j=1,2,⋯,s
如果分布是完全已知的,即p1(j)=⋯pr(j)=pj0p_1(j)=\cdots p_r(j)=p_j^0p1(j)=⋯pr(j)=pj0,且p10,⋯ ,ps0p_1^0,\cdots,p_s^0p10,⋯,ps0均已知且和为1,此时
K=Kn=∑i=1r∑j=1s(nij−ni⋅pj0)2ni⋅pj0
K=K_n=\sum_{i=1}^r\sum_{j=1}^s\frac{(n_{ij}-n_{i\cdot }p_j^0)^2}{n_{i\cdot }p_j^0}
K=Kn=i=1∑rj=1∑sni⋅pj0(nij−ni⋅pj0)2
当H0H_0H0成立时,有Kn⟶Lχ(s−1)r2K_n\stackrel{\mathscr L}{\longrightarrow }\chi^2_{(s-1)r}Kn⟶Lχ(s−1)r2。
如果分布未知,则
Kn∗=n(∑i=1r∑j=1snij2ni⋅n⋅j−1)⟶Lχ(r−1)(s−1)2
K_n^*=n\left(
\sum_{i=1}^r\sum_{j=1}^s\frac{n_{ij}^2}{n_{i\cdot}n_{\cdot j}}-1
\right)\stackrel{\mathscr L}{\longrightarrow }\chi^2_{(r-1)(s-1)}
Kn∗=n(i=1∑rj=1∑sni⋅n⋅jnij2−1)⟶Lχ(r−1)(s−1)2
齐一性检验与独立性检验的区别,就在于ni⋅n_{i\cdot}ni⋅是事先给定的,没有随机性;而独立性检验中ni⋅n_{i\cdot}ni⋅是随机变量。但在独立性检验中成立的结论在齐一性检验中依然适用。
4.柯尔莫哥洛夫检验
对于拟合优度检验,Pearsonχ2\chi^2χ2检验虽然适用于任何总体分布,但当理论分布是连续分布时,柯尔莫哥洛夫检验效果更好。
要检验如下假设H0:F(x)=F0(x)H_0:F(x)=F_0(x)H0:F(x)=F0(x),则从样本出发得到经验分布函数记作Fn(x)F_n(x)Fn(x),定义柯氏距离
Dn=sup−∞<x<+∞∣Fn(x)−F0(x)∣
D_n=\sup_{-\infty<x<+\infty}|F_n(x)-F_0(x)|
Dn=−∞<x<+∞sup∣Fn(x)−F0(x)∣
为检验统计量,由格里汶科定理,当H0H_0H0成立时有P(limn→∞Dn=0)=1\mathbf P(\lim \limits_{n\to\infty}D_n=0)=1P(n→∞limDn=0)=1,也就是说DnD_nDn值过大时,倾向于否定假设H0H_0H0,拟合优度的计算公式是p(D0)=P(D≥D0∣H0)p(D_0)=\mathbf P(D\ge D_0|H_0)p(D0)=P(D≥D0∣H0)。需要确定一个常数,使得p(Dn,α)=αp(D_{n,\alpha})=\alphap(Dn,α)=α,这个常数就是DnD_nDn的临界值。当nnn较小时,Dn,αD_{n,\alpha}Dn,α的值可以由查表求出。
Dn,αD_{n,\alpha}Dn,α表格的制定依据是柯尔莫哥洛夫证明的极限定理:如果理论分布F0(x)F_0(x)F0(x)在R\mathbf RR上处处连续,则原假设成立时有
limn→∞P(Dn≤λn)=K(λ)={∑k=−∞∞(−1)ke−2k2λ2,λ>00,λ≤0
\lim_{n\to \infty}\mathbf P\left(D_n\le \frac{\lambda }{\sqrt n}\right)=K(\lambda)=
\left\{
\begin{array}l
\sum \limits_{k=-\infty}^\infty(-1)^ke^{-2k^2\lambda^2},&\lambda>0\\
0,&\lambda \le 0
\end{array}
\right.
n→∞limP(Dn≤nλ)=K(λ)=⎩⎨⎧k=−∞∑∞(−1)ke−2k2λ2,0,λ>0λ≤0