非参数统计基础1——Pearson检验

非参数统计基础1——Pearson检验

一、非参数假设检验的核心场景

当我们研究一个总体时,常常不知道它的分布类型(比如不知道是正态分布、泊松分布还是其他分布),这时候需要通过样本信息检验“总体是否服从某个预设分布”,或者“两个指标是否独立”——这类不依赖总体分布形式的检验,就是非参数假设检验。而Pearson检验是解决这两类问题最常用的非参数方法。

二、第一类应用:总体分布的拟合检验

(一)核心思想:用“频率 vs 概率”判断分布是否匹配

我们知道,当样本量足够大时,事件发生的频率会稳定在其概率附近(大数定律)。比如,如果总体真的服从泊松分布,那么样本中“出现iiiα\alphaα粒子”的实际次数(实际频数fif_ifi),应该和根据泊松分布计算的理论次数(理论频数npinp_inpinnn是样本量,pip_ipi是该事件的概率)相差不大。

Pearson检验的核心,就是用一个统计量量化“实际频数与理论频数的差异”,如果差异太大,就拒绝“总体服从预设分布”的假设。

(二)关键公式与定理

  1. Pearson统计量
    这个统计量专门衡量差异程度,公式为:
    χ2=∑i=1k(fi−npi)2npi\chi^2 = \sum_{i=1}^k \frac{(f_i - np_i)^2}{np_i}χ2=i=1knpi(finpi)2

    • 其中k是把总体取值范围分成的“互不相交的区间/事件类”个数;
    • fif_ifi:第iii类的实际频数(样本中落在该类的个数);
    • npinp_inpi:第iii类的理论频数(根据预设分布计算的期望个数)。

    逻辑:如果总体真的服从预设分布(H0H_0H0成立),(fi−npif_i- np_ifinpi)应该很小,统计量χ2\chi^2χ2会偏小;如果差异大,χ2\chi^2χ2会偏大——所以我们用χ2\chi^2χ2的大小作为检验标准。

  2. Pearson定理(确定统计量的分布)
    当样本量n充分大(通常要求n≥50)时,无论总体原本服从什么分布,统计量χ2\chi^2χ2近似服从自由度为k-γ-1的χ²分布

    • 若预设分布F0(x)F_0(x)F0(x)完全已知(无未知参数),则γ=0\gamma=0γ=0,自由度=k-1;
    • 若预设分布F0(x)F_0(x)F0(x)γ\gammaγ个未知参数(比如泊松分布的λ\lambdaλ、正态分布的μ\muμσ\sigmaσ),需要用极大似然估计求出这些参数,此时自由度=k−γ−1k-γ-1kγ1
  3. 使用注意事项
    因为是“渐近分布”,必须满足两个条件:

    • 样本量n≥50n\geq50n50
    • 每个理论频数npi≥5np_i\geq5npi5(最好≥10\geq1010),如果有npi<5np_i<5npi<5,需要合并相邻的区间/类别,直到满足条件。

(三)检验步骤(6步走)

  1. 建立假设:H0H_0H0:总体服从预设分布F0(x)F_0(x)F0(x)H1H_1H1:不服从;
  2. 划分区间/类别:把总体取值范围(−∞,+∞)(-\infty, +\infty)(,+)分成kkk个互不相交的类A1,A2,⋯ ,AkA_1,A_2,\cdots,A_kA1,A2,,Ak
  3. 计算理论频数npinp_inpi:若F0(x)F_0(x)F0(x)有未知参数,先做极大似然估计,再用得到的F(x)F(x)F(x)计算p^i=P(X∈Ai)\hat{p}_i=P(X\in A_i)p^i=P(XAi),进而得到np^in\hat{p}_inp^inpinp_inpi);
  4. 统计实际频数fif_ifi:数样本中落在每个AiA_iAi的个数;
  5. 计算χ2\chi^2χ2统计量的值;
  6. 查临界值:给定显著性水平α\alphaα,查χ2\chi^2χ2分布表得χ1−α2\chi^2_{1-\alpha}χ1α2(自由度),若χ2≥χ1−α2\chi^2\geq \chi^2_{1-\alpha}χ2χ1α2,则拒绝H0H_0H0,否则接受H0H_0H0

(四)例:检验α粒子数是否服从泊松分布

题目背景

在铀放射实验中,观察100100100次(n=100n=100n=100),记录每次到达计数器的α\alphaα粒子数XXX,实际频数fif_ifi如下:

粒子数iii01234567891011
实际频数fif_ifi1516172611992121

理论上X应服从泊松分布:P(X=i)=λii!e−λP(X=i)=\frac{\lambda^i}{i!}e^{-\lambda}P(X=i)=i!λieλλ\lambdaλ未知),试在α=0.05\alpha=0.05α=0.05下检验理论是否符合实际。

分步解答
  1. 建立假设
    H0H_0H0X∼P(X=i)=λii!e−λX\sim P(X=i)=\frac{\lambda^i}{i!}e^{-\lambda}XP(X=i)=i!λieλH1H_1H1:不服从。

  2. 估计未知参数λ
    泊松分布的均值E(X)=λE(X)=\lambdaE(X)=λ,用极大似然估计(样本均值):
    λ^=xˉ=∑i=011i⋅fin=0×1+1×5+2×16+...+11×1100=4.2\hat{\lambda} = \bar{x} = \frac{\sum_{i=0}^{11} i \cdot f_i}{n} = \frac{0×1 + 1×5 + 2×16 + ... + 11×1}{100} = 4.2λ^=xˉ=ni=011ifi=1000×1+1×5+2×16+...+11×1=4.2

  3. 划分类别并计算理论频数npinp_inpi
    泊松分布是离散型,每个i就是一个类别,计算npi=100×4.2ii!e−4.2np_i = 100×\frac{4.2^i}{i!}e^{-4.2}npi=100×i!4.2ie4.2,结果如下(部分):

    • i=0i=0i=0np0≈100×0.015=1.5np_0\approx100×0.015=1.5np0100×0.015=1.5
    • i=1i=1i=1np1≈6.3np_1\approx6.3np16.3
    • i=2i=2i=213.213.213.2
    • …;
    • i=11i=11i=11np11≈0.1np_{11}\approx0.1np110.1

    注意:i=0(1.5)i=0(1.5)i=01.5i=8(3.6)i=8(3.6)i=83.6i=9(1.7)i=9(1.7)i=91.7i=10(0.7)i=10(0.7)i=100.7i=11(0.1)i=11(0.1)i=110.1npi<5np_i<5npi<5,需要合并!

  4. 合并类别
    合并后得到k=8k=8k=8个类别:
    {0,1},{2},{3},{4},{5},{6},{7},{8,9,10,11} \{0,1\},\{2\},\{3\},\{4\},\{5\},\{6\},\{7\},\{8,9,10,11\} {0,1},{2},{3},{4},{5},{6},{7},{8,9,10,11}

    合并后的理论频数均≥5\geq55(比如{0,1}\{0,1\}{0,1}np=1.5+6.3=7.8np=1.5+6.3=7.8np=1.5+6.3=7.8)。

  5. 计算χ²统计量
    核心公式:∑(fi−np^i)2np^i\sum \frac{(f_i - n\hat{p}_i)^2}{n\hat{p}_i}np^i(finp^i)2,代入数据计算得:
    χ2=0.415+0.594+0.122+2.245+1.723+0.505+0.609+0.014=6.257\chi^2 = 0.415 + 0.594 + 0.122 + 2.245 + 1.723 + 0.505 + 0.609 + 0.014 = 6.257χ2=0.415+0.594+0.122+2.245+1.723+0.505+0.609+0.014=6.257

  6. 查临界值并判断

    • 自由度=k−γ−1=8−1−1=6k-\gamma-1=8-1-1=6kγ1=811=6k=8k=8k=8γ=1\gamma=1γ=1个未知参数λ\lambdaλ);
    • 给定α=0.05\alpha=0.05α=0.05,查χ2\chi^2χ2分布表得χ0.952(6)=12.592\chi^2_{0.95}(6)=12.592χ0.952(6)=12.592
    • 因为6.257<12.5926.257 < 12.5926.257<12.592,所以接受H₀,即认为α\alphaα粒子数服从λ=4.2\lambda=4.2λ=4.2的泊松分布。

三、第二类应用:二维列联表独立性检验

(一)核心问题:检验两个指标是否独立

比如“吸烟与否”和“是否患慢性气管炎”是否有关?“性别”和“偏好的手机品牌”是否有关?这类问题可以转化为“两个指标XXXYYY是否相互独立”,用列联表+Pearson检验解决。

补充:通常也称指标所取的状态为水平。

(二)r×s列联表的结构

假设XXXrrr个类别(A1,⋯ ,ArA_1,\cdots,A_rA1,,Ar),YYYsss个类别(B1,⋯ ,BsB_1, \cdots, B_sB1,,Bs),从总体抽nnn个样本,记录“X∈AiX\in A_iXAiY∈BjY\in B_jYBj”的个数nijn_{ij}nij(实际频数),整理成表格:

Y&XY\&XY&XB1B_1B1BsB_sBs行合计nin_ini
A1A_1A1n11n_{11}n11n1sn_{1s}n1sn1=n11+⋯+n1sn_{1}=n_{11}+\dots+n_{1s}n1=n11++n1s
ArA_rArnr1n_{r1}nr1nrsn_{rs}nrsnr=nr1+⋯+nrsn_{r}=n_{r1}+\dots+n_{rs}nr=nr1++nrs
列合计njn_{j}njn1=n11+⋯+nr1n_{1}=n_{11}+\dots+n_{r1}n1=n11++nr1ns=n1s+⋯+nrsn_{s}=n_{1s}+\dots+n_{rs}ns=n1s++nrs总样本nnn

(三)检验逻辑与公式

  1. 假设H0H_0H0XXXYYY相互独立;H1H_1H1:不独立。
  2. 独立的等价条件:若XXXYYY独立,则P(X∈Ai,Y∈Bj)=P(X∈Ai)⋅P(Y∈Bj)P(X\in A_i,Y\in B_j)=P(X\in A_i)\cdot P(Y\in B_j)P(XAi,YBj)=P(XAi)P(YBj),即pij=pi⋅pjp_{ij}=p_i·p_jpij=pipj
  3. 理论频数估计
    • 用频率估计概率:p^i⋅=nin\hat{p}_i·=\frac{n_i}{n}p^i=nniX∈AiX\in A_iXAi的概率),p^j=njn\hat{p}_j=\frac{n_j}{n}p^j=nnjY∈BjY\in B_jYBj的概率);
    • 理论频数:np^ij=n⋅p^i⋅p^j=ni⋅njnn\hat{p}_{ij}=n·\hat{p}_i·\hat{p}_j=\frac{n_i·n_j}{n}np^ij=np^ip^j=nninj
  4. 检验统计量
    χ2=∑i=1r∑j=1s(nij−ni⋅njn)2ni⋅njn\chi^2 = \sum_{i=1}^r \sum_{j=1}^s \frac{(n_{ij} - \frac{n_i·n_j}{n})^2}{\frac{n_i·n_j}{n}}χ2=i=1rj=1snninj(nijnninj)2
  5. 自由度(r−1)(s−1)(r-1)(s-1)(r1)(s1)(因为有r+s−2r+s-2r+s2个独立未知参数)。

(四)例:慢性气管炎与吸烟的独立性检验

题目背景

抽查50岁以上339339339人,得到2×22\times 22×2列联表(XXX=吸烟与否,YYY=患气管炎与否):

患慢性气管炎(B1B_1B1未患慢性气管炎(B2B_2B2行合计nin_ini
吸烟(A1A_1A143(n11n_{11}n11162(n12n_{12}n12205(n1n_1n1
不吸烟(A2A_2A213(n21n_{21}n21121(n22n_{22}n22134(n2n_2n2
列合计njn_jnj56(n1n_1n1283(n2n_2n2339(nnn

试在α=0.01\alpha=0.01α=0.01下检验“吸烟”与“患慢性气管炎”是否独立。

分步解答
  1. 建立假设H0H_0H0:吸烟与患气管炎独立;H1H_1H1:不独立。

  2. 计算理论频数
    每个单元格的理论频数np^ij=ni⋅njnn\hat{p}_{ij}=\frac{n_i·n_j}{n}np^ij=nninj

    • n11n_{11}n11的理论频数:205×56339≈33.86\frac{205×56}{339}≈33.86339205×5633.86
    • n12n_{12}n12的理论频数:205×283339≈171.14\frac{205×283}{339}≈171.14339205×283171.14
    • n21n_{21}n21的理论频数:134×56339≈22.14\frac{134×56}{339}≈22.14339134×5622.14
    • n22n_{22}n22的理论频数:134×283339≈111.86\frac{134×283}{339}≈111.86339134×283111.86
  3. 计算χ²统计量
    χ2=(43−33.86)233.86+(162−171.14)2171.14+(13−22.14)222.14+(121−111.86)2111.86≈7.4688\chi^2 = \frac{(43-33.86)^2}{33.86} + \frac{(162-171.14)^2}{171.14} + \frac{(13-22.14)^2}{22.14} + \frac{(121-111.86)^2}{111.86} ≈7.4688χ2=33.86(4333.86)2+171.14(162171.14)2+22.14(1322.14)2+111.86(121111.86)27.4688

  4. 查临界值并判断

    • 自由度=(2−1)(2−1)=1=(2-1)(2-1)=1=(21)(21)=1
    • α=0.01\alpha=0.01α=0.01,查χ2\chi^2χ2分布表得χ0.992(1)=6.635\chi^2_{0.99}(1)=6.635χ0.992(1)=6.635
    • 因为7.4688>6.6357.4688 > 6.6357.4688>6.635,所以拒绝H₀,即认为吸烟与患慢性气管炎有密切关系!

四、总结

Pearson检验的核心是“用χ2\chi^2χ2统计量衡量实际与理论的差异”,主要解决两类问题:

  1. 总体分布的拟合检验(判断总体是否服从预设分布);
  2. 列联表独立性检验(判断两个指标是否相关)。

关键点

  • 统计量的核心是“(实际-理论)²/理论”的求和;
  • 自由度的计算:拟合检验是k−γ−1k-γ-1kγ1,独立性检验是(r−1)(s−1)(r-1)(s-1)(r1)(s1)
  • 样本量n≥50n\geq50n50,理论频数npi≥5np_{i}\geq5npi5(否则合并类别)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值