16.第六章 非参数假设检验(2)

本文探讨了非参数假设检验的几个关键方面,包括拟合优度检验、列联表中的独立性和齐一性检验,以及柯尔莫哥洛夫检验。通过详细解释每种检验的原理和应用,为读者提供了全面理解非参数检验的基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第六章 非参数假设检验(2)

1.拟合优度检验

拟合优度,即利用总体XXX中抽取的样本X1,⋯ ,XnX_1,\cdots,X_nX1,,Xn,来检验H0:r.v. X的分布为FH_0:\text{r.v. }X的分布为FH0:r.v. XF这一假设。然而,对于总体分布,用符号、不符合这种说法未免过于绝对,因此通常是提出一个介于0到1之间的数值来衡量拟合的优劣程度,称作拟合优度。

拟合优度一般如此定义:p(d0)=P(D≥d0∣H0)p(d_0)=P(D\ge d_0|H_0)p(d0)=P(Dd0H0),这里DDD是一种样本之于给定分布的偏差,是一个统计量,有许多的定义方式;d0d_0d0就是统计量DDD对于给定样本的观测值。

当理论分布完全已知的时候,可以采用Pearson χ2\chi^2χ2检验,它又分为几种类型。

  1. 随机变量XXX为离散型,且只取有限个值a1,⋯ ,ara_1,\cdots,a_ra1,,ar的情形。

    X1,⋯ ,XnX_1,\cdots,X_nX1,,Xn为从总体XXX中抽取的简单样本,理论分布为
    F:(a1a2⋯arp1p2⋯pr) F:\left( \begin{array}{c} a_1&a_2&\cdots&a_r\\ p_1&p_2&\cdots&p_r \end{array} \right) F:(a1p1a2p2arpr)
    p1,⋯ ,prp_1,\cdots,p_rp1,,pr已知,∑i=1rpi=1\sum_{i=1}^r p_i=1i=1rpi=1,检验的问题表示为
    H0:P(X=ai)=pi,i=1,⋯ ,r H_0:P(X=a_i)=p_i,\quad i=1,\cdots,r H0:P(X=ai)=pi,i=1,,r
    X1,⋯ ,XnX_1,\cdots,X_nX1,,Xn中,等于aia_iai的个数为νi\nu_iνi(观察频数),按照分布FFF的理想情况,每一个aia_iai对应的理论频数应该是npinp_inpi,当nnn充分大的时候观察频数应该趋近于理论频数,因此取检验统计量为∑i=1rci(νi/n−pi)2\sum_{i=1}^rc_i(\nu_i/n-p_i)^2i=1rci(νi/npi)2,特别地,取ci=n/pic_i=n/p_ici=n/pi,得到
    Kn=∑i=1r(νi−npi)2npi⟶Lχr−12 K_n=\sum_{i=1}^r \frac{(\nu_i-np_i)^2}{np_i}\stackrel{\mathscr L}{\longrightarrow }\chi^2_{r-1} Kn=i=1rnpi(νinpi)2Lχr12
    这样,当KnK_nKn过大,具体地说就是Kn>χr−12(α)K_n>\chi^2_{r-1}(\alpha)Kn>χr12(α)时拒绝H0H_0H0。按照前面的方式定义拟合优度,就是
    p(k0)=P(Kn≥k0∣H0)≈P(χr−12≥k0) p(k_0)=\mathbf P(K_n\ge k_0|H_0)\approx\mathbf P(\chi^2_{r-1}\ge k_0) p(k0)=P(Knk0H0)P(χr12k0)

  2. 理论分布为任一确定分布的情形。

    此时,取r−1r-1r1个常数a0=−∞<a1<⋯<ar=∞a_0=-\infty<a_1<\cdots<a_r=\inftya0=<a1<<ar=,将数轴划分成rrr个子区间Ii=[ai−1,ai)I_i=[a_{i-1},a_i)Ii=[ai1,ai)(负无穷处为开区间),并计算样本落在IiI_iIi上的概率pi=F(ai)−F(ai−1)p_i=F(a_i)-F(a_{i-1})pi=F(ai)F(ai1),将其作为理论概率。这样,就转化成了理论分布为有限维离散分布的情形。

  3. 理论分布带有未知参数的情形。

    这时的假设就变成H0:r.v. X∼F(x,θ10,⋯ ,θs0)H_0:\text{r.v. }X\sim F(x,\theta_1^0,\cdots,\theta_s^0)H0:r.v. XF(x,θ10,,θs0),也就是存在这样一组参数让总体符合分布。

    对上一情况直接推广,设pj(θ)=P(X∈Ij)=F(aj;θ)−F(aj−1;θ)p_j(\boldsymbol \theta)=\mathbf P(X\in I_j)=F(a_j;\boldsymbol \theta)-F(a_{j-1};\boldsymbol \theta)pj(θ)=P(XIj)=F(aj;θ)F(aj1;θ),类似地可以求出
    Kn(θ)=∑j=1r(νi−npi(θ))2npi(θ) K_n(\boldsymbol \theta)=\sum_{j=1}^r \frac{(\nu_i-np_i(\boldsymbol \theta))^2}{np_i(\boldsymbol \theta)} Kn(θ)=j=1rnpi(θ)(νinpi(θ))2
    此时的Kn(θ)K_n(\boldsymbol \theta)Kn(θ)由于θ\boldsymbol \thetaθ的存在还不能作为统计量,所以要对θ\boldsymbol \thetaθ作出估计,用θ^\hat {\boldsymbol \theta}θ^代入Kn(θ)K_n(\boldsymbol \theta)Kn(θ),其中θ^\hat {\boldsymbol \theta}θ^也由样本X\boldsymbol XX使用极大似然方法估计出,并且有
    Kn(θ^)⟶Lχr−1−s2 K_n(\hat {\boldsymbol \theta})\stackrel{\mathscr L}{\longrightarrow }\chi^2_{r-1-s} Kn(θ^)Lχr1s2
    这样,当Kn(θ^)K_n(\hat {\boldsymbol \theta})Kn(θ^)过大,即Kn(θ^)>χr−1−s2(α)K_n(\hat {\boldsymbol \theta})>\chi^2_{r-1-s}(\alpha)Kn(θ^)>χr1s2(α),则否定原假设。拟合优度自然就是p(k0∗)=P(Kn(θ^)≥k0∗)≈P(χr−1−s2≥k0∗)p(k_0^*)=\mathbf P(K_n(\hat{\boldsymbol \theta})\ge k_0^*)\approx\mathbf P(\chi^2_{r-1-s}\ge k_0^*)p(k0)=P(Kn(θ^)k0)P(χr1s2k0)

2.列联表中的独立性检验

列联表主要是用于检验样本的两个属性之间是否独立的。假设总体中的每一个个体都可以按A,BA,BA,B属性分类,属性AAArrr个水平,分别是A1,⋯ ,ArA_1,\cdots,A_rA1,,Ar;属性BBBsss个水平B1,⋯ ,BsB_1,\cdots,B_sB1,,Bs,这样,每个个体的观察结果为随机向量X=(X(1),X(2))X=(X^{(1)},X^{(2)})X=(X(1),X(2)),第XiX_iXi个个体的观察结果为(Ari,Bsi)(A_{r_i},B_{s_i})(Ari,Bsi)。一共有nnn个个体,且属性为(Ai,Bj)(A_i,B_j)(Ai,Bj)的个体有nijn_{ij}nij个,将数量列入表格,就做成r×sr\times sr×s列联表。要验证的假设是
H0:X(1),X(2)独立 H_0:X^{(1)},X^{(2)}独立 H0:X(1),X(2)
现在将AAA的水平记作1,⋯ ,r1,\cdots,r1,,rBBB的水平记作1,⋯ ,s1,\cdots,s1,,s。如果记P(X(1)=i,X(2)=j)=pij\mathbf P(X^{(1)}=i,X^{(2)}=j)=p_{ij}P(X(1)=i,X(2)=j)=pij,如果H0H_0H0成立,则有
pij=P(X(1)=i,X(2)=j)=P(X(1)=i)P(X(2)=j)=pi⋅p⋅jpi⋅=∑j=1spij,p⋅j=∑i=1rpij p_{ij}=\mathbf P(X^{(1)}=i,X^{(2)}=j)=\mathbf P(X^{(1)}=i)\mathbf P(X^{(2)}=j)=p_{i\cdot}p_{\cdot j}\\ p_{i\cdot}=\sum_{j=1}^sp_{ij},\quad p_{\cdot j}=\sum_{i=1}^r p_{ij} pij=P(X(1)=i,X(2)=j)=P(X(1)=i)P(X(2)=j)=pipjpi=j=1spij,pj=i=1rpij
所以原假设H0H_0H0转化为H0:pij=pi⋅p⋅j,∀i,jH_0:p_{ij}=p_{i\cdot}p_{\cdot j},\forall i,jH0:pij=pipj,i,j。此时如果将pi⋅,p⋅jp_{i\cdot},p_{\cdot j}pi,pj视为参数,则独立的未知参数有s+r−2s+r-2s+r2个,此时计算得χ2\chi^2χ2统计量的值为
Kn∗=n(∑i=1r∑j=1snij2ni⋅n⋅j−1) K_n^*=n\left(\sum_{i=1}^r\sum_{j=1}^s\frac{n_{ij}^2}{n_{i\cdot}n_{\cdot j}}-1\right) Kn=n(i=1rj=1sninjnij21)
H0H_0H0时且n→∞n\to \inftyn时,有Kn∗⟶Lχ(r−1)(s−1)2K_n^*\stackrel{\mathscr L}{\longrightarrow }\chi^2_{(r-1)(s-1)}KnLχ(r1)(s1)2,如果两个属性独立则Kn∗K_n^*Kn不应该过大。如果Kn∗>χ(r−1)(s−1)2(α)K_n^*>\chi^2_{(r-1)(s-1)}(\alpha)Kn>χ(r1)(s1)2(α)则否定假设,否则接受。检验的拟合优度是
p(k0)=P(Kn∗≥k0∣H0)≈P(χ(r−1)(s−1)2≥k0) p(k_0)=\mathbf P(K_n^*\ge k_0|H_0)\approx\mathbf P(\chi^2_{(r-1)(s-1)}\ge k_0) p(k0)=P(Knk0H0)P(χ(r1)(s1)2k0)
特别地当r=s=2r=s=2r=s=2时,
Kn∗=n(n11n22−n12n21)2n1⋅n2⋅n⋅1n⋅2⟶Lχ12 K_n^*=\frac{n(n_{11}n_{22}-n_{12}n_{21})^2}{n_{1\cdot}n_{2\cdot}n_{\cdot1}n_{\cdot 2}}\stackrel{\mathscr L}{\longrightarrow }\chi^2_1 Kn=n1n2n1n2n(n11n22n12n21)2Lχ12

3.列联表中的齐一性检验

设有rrr个生产同一产品的工厂,生产sss个不同等级的产品,第iii个工厂的jjj等品率为pi(j)p_i(j)pi(j),现在从第iii个工厂取出ni⋅n_{i\cdot}ni个产品,记录jjj等品nijn_{ij}nij个。齐一性检验检验的是rrr个工厂产品质量相同,即
H0:p1(j)=p2(j)=⋯=pr(j),j=1,2,⋯ ,s H_0:p_1(j)=p_2(j)=\cdots=p_r(j),j=1,2,\cdots,s H0:p1(j)=p2(j)==pr(j),j=1,2,,s
如果分布是完全已知的,即p1(j)=⋯pr(j)=pj0p_1(j)=\cdots p_r(j)=p_j^0p1(j)=pr(j)=pj0,且p10,⋯ ,ps0p_1^0,\cdots,p_s^0p10,,ps0均已知且和为1,此时
K=Kn=∑i=1r∑j=1s(nij−ni⋅pj0)2ni⋅pj0 K=K_n=\sum_{i=1}^r\sum_{j=1}^s\frac{(n_{ij}-n_{i\cdot }p_j^0)^2}{n_{i\cdot }p_j^0} K=Kn=i=1rj=1snipj0(nijnipj0)2
H0H_0H0成立时,有Kn⟶Lχ(s−1)r2K_n\stackrel{\mathscr L}{\longrightarrow }\chi^2_{(s-1)r}KnLχ(s1)r2

如果分布未知,则
Kn∗=n(∑i=1r∑j=1snij2ni⋅n⋅j−1)⟶Lχ(r−1)(s−1)2 K_n^*=n\left( \sum_{i=1}^r\sum_{j=1}^s\frac{n_{ij}^2}{n_{i\cdot}n_{\cdot j}}-1 \right)\stackrel{\mathscr L}{\longrightarrow }\chi^2_{(r-1)(s-1)} Kn=n(i=1rj=1sninjnij21)Lχ(r1)(s1)2
齐一性检验与独立性检验的区别,就在于ni⋅n_{i\cdot}ni是事先给定的,没有随机性;而独立性检验中ni⋅n_{i\cdot}ni是随机变量。但在独立性检验中成立的结论在齐一性检验中依然适用。

4.柯尔莫哥洛夫检验

对于拟合优度检验,Pearsonχ2\chi^2χ2检验虽然适用于任何总体分布,但当理论分布是连续分布时,柯尔莫哥洛夫检验效果更好。

要检验如下假设H0:F(x)=F0(x)H_0:F(x)=F_0(x)H0:F(x)=F0(x),则从样本出发得到经验分布函数记作Fn(x)F_n(x)Fn(x),定义柯氏距离
Dn=sup⁡−∞<x<+∞∣Fn(x)−F0(x)∣ D_n=\sup_{-\infty<x<+\infty}|F_n(x)-F_0(x)| Dn=<x<+supFn(x)F0(x)
为检验统计量,由格里汶科定理,当H0H_0H0成立时有P(lim⁡n→∞Dn=0)=1\mathbf P(\lim \limits_{n\to\infty}D_n=0)=1P(nlimDn=0)=1,也就是说DnD_nDn值过大时,倾向于否定假设H0H_0H0,拟合优度的计算公式是p(D0)=P(D≥D0∣H0)p(D_0)=\mathbf P(D\ge D_0|H_0)p(D0)=P(DD0H0)。需要确定一个常数,使得p(Dn,α)=αp(D_{n,\alpha})=\alphap(Dn,α)=α,这个常数就是DnD_nDn的临界值。当nnn较小时,Dn,αD_{n,\alpha}Dn,α的值可以由查表求出。

Dn,αD_{n,\alpha}Dn,α表格的制定依据是柯尔莫哥洛夫证明的极限定理:如果理论分布F0(x)F_0(x)F0(x)R\mathbf RR上处处连续,则原假设成立时有
lim⁡n→∞P(Dn≤λn)=K(λ)={∑k=−∞∞(−1)ke−2k2λ2,λ>00,λ≤0 \lim_{n\to \infty}\mathbf P\left(D_n\le \frac{\lambda }{\sqrt n}\right)=K(\lambda)= \left\{ \begin{array}l \sum \limits_{k=-\infty}^\infty(-1)^ke^{-2k^2\lambda^2},&\lambda>0\\ 0,&\lambda \le 0 \end{array} \right. nlimP(Dnnλ)=K(λ)=k=(1)ke2k2λ2,0,λ>0λ0

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值