非参数统计基础1——Pearson检验
一、非参数假设检验的核心场景
当我们研究一个总体时,常常不知道它的分布类型(比如不知道是正态分布、泊松分布还是其他分布),这时候需要通过样本信息检验“总体是否服从某个预设分布”,或者“两个指标是否独立”——这类不依赖总体分布形式的检验,就是非参数假设检验。而Pearson检验是解决这两类问题最常用的非参数方法。
二、第一类应用:总体分布的拟合检验
(一)核心思想:用“频率 vs 概率”判断分布是否匹配
我们知道,当样本量足够大时,事件发生的频率会稳定在其概率附近(大数定律)。比如,如果总体真的服从泊松分布,那么样本中“出现iii个α\alphaα粒子”的实际次数(实际频数fif_ifi),应该和根据泊松分布计算的理论次数(理论频数npinp_inpi,nnn是样本量,pip_ipi是该事件的概率)相差不大。
Pearson检验的核心,就是用一个统计量量化“实际频数与理论频数的差异”,如果差异太大,就拒绝“总体服从预设分布”的假设。
(二)关键公式与定理
-
Pearson统计量:
这个统计量专门衡量差异程度,公式为:
χ2=∑i=1k(fi−npi)2npi\chi^2 = \sum_{i=1}^k \frac{(f_i - np_i)^2}{np_i}χ2=i=1∑knpi(fi−npi)2- 其中k是把总体取值范围分成的“互不相交的区间/事件类”个数;
- fif_ifi:第iii类的实际频数(样本中落在该类的个数);
- npinp_inpi:第iii类的理论频数(根据预设分布计算的期望个数)。
逻辑:如果总体真的服从预设分布(H0H_0H0成立),(fi−npif_i- np_ifi−npi)应该很小,统计量χ2\chi^2χ2会偏小;如果差异大,χ2\chi^2χ2会偏大——所以我们用χ2\chi^2χ2的大小作为检验标准。
-
Pearson定理(确定统计量的分布):
当样本量n充分大(通常要求n≥50)时,无论总体原本服从什么分布,统计量χ2\chi^2χ2近似服从自由度为k-γ-1的χ²分布:- 若预设分布F0(x)F_0(x)F0(x)完全已知(无未知参数),则γ=0\gamma=0γ=0,自由度=k-1;
- 若预设分布F0(x)F_0(x)F0(x)有γ\gammaγ个未知参数(比如泊松分布的λ\lambdaλ、正态分布的μ\muμ和σ\sigmaσ),需要用极大似然估计求出这些参数,此时自由度=k−γ−1k-γ-1k−γ−1。
-
使用注意事项:
因为是“渐近分布”,必须满足两个条件:- 样本量n≥50n\geq50n≥50;
- 每个理论频数npi≥5np_i\geq5npi≥5(最好≥10\geq10≥10),如果有npi<5np_i<5npi<5,需要合并相邻的区间/类别,直到满足条件。
(三)检验步骤(6步走)
- 建立假设:H0H_0H0:总体服从预设分布F0(x)F_0(x)F0(x);H1H_1H1:不服从;
- 划分区间/类别:把总体取值范围(−∞,+∞)(-\infty, +\infty)(−∞,+∞)分成kkk个互不相交的类A1,A2,⋯ ,AkA_1,A_2,\cdots,A_kA1,A2,⋯,Ak;
- 计算理论频数npinp_inpi:若F0(x)F_0(x)F0(x)有未知参数,先做极大似然估计,再用得到的F(x)F(x)F(x)计算p^i=P(X∈Ai)\hat{p}_i=P(X\in A_i)p^i=P(X∈Ai),进而得到np^in\hat{p}_inp^i(npinp_inpi);
- 统计实际频数fif_ifi:数样本中落在每个AiA_iAi的个数;
- 计算χ2\chi^2χ2统计量的值;
- 查临界值:给定显著性水平α\alphaα,查χ2\chi^2χ2分布表得χ1−α2\chi^2_{1-\alpha}χ1−α2(自由度),若χ2≥χ1−α2\chi^2\geq \chi^2_{1-\alpha}χ2≥χ1−α2,则拒绝H0H_0H0,否则接受H0H_0H0。
(四)例:检验α粒子数是否服从泊松分布
题目背景
在铀放射实验中,观察100100100次(n=100n=100n=100),记录每次到达计数器的α\alphaα粒子数XXX,实际频数fif_ifi如下:
| 粒子数iii | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 实际频数fif_ifi | 1 | 5 | 16 | 17 | 26 | 11 | 9 | 9 | 2 | 1 | 2 | 1 |
理论上X应服从泊松分布:P(X=i)=λii!e−λP(X=i)=\frac{\lambda^i}{i!}e^{-\lambda}P(X=i)=i!λie−λ(λ\lambdaλ未知),试在α=0.05\alpha=0.05α=0.05下检验理论是否符合实际。
分步解答
-
建立假设:
H0H_0H0:X∼P(X=i)=λii!e−λX\sim P(X=i)=\frac{\lambda^i}{i!}e^{-\lambda}X∼P(X=i)=i!λie−λ;H1H_1H1:不服从。 -
估计未知参数λ:
泊松分布的均值E(X)=λE(X)=\lambdaE(X)=λ,用极大似然估计(样本均值):
λ^=xˉ=∑i=011i⋅fin=0×1+1×5+2×16+...+11×1100=4.2\hat{\lambda} = \bar{x} = \frac{\sum_{i=0}^{11} i \cdot f_i}{n} = \frac{0×1 + 1×5 + 2×16 + ... + 11×1}{100} = 4.2λ^=xˉ=n∑i=011i⋅fi=1000×1+1×5+2×16+...+11×1=4.2 -
划分类别并计算理论频数npinp_inpi:
泊松分布是离散型,每个i就是一个类别,计算npi=100×4.2ii!e−4.2np_i = 100×\frac{4.2^i}{i!}e^{-4.2}npi=100×i!4.2ie−4.2,结果如下(部分):- i=0i=0i=0:np0≈100×0.015=1.5np_0\approx100×0.015=1.5np0≈100×0.015=1.5;
- i=1i=1i=1:np1≈6.3np_1\approx6.3np1≈6.3;
- i=2i=2i=2:13.213.213.2;
- …;
- i=11i=11i=11:np11≈0.1np_{11}\approx0.1np11≈0.1
注意:i=0(1.5)i=0(1.5)i=0(1.5)、i=8(3.6)i=8(3.6)i=8(3.6)、i=9(1.7)i=9(1.7)i=9(1.7)、i=10(0.7)i=10(0.7)i=10(0.7)、i=11(0.1)i=11(0.1)i=11(0.1)的npi<5np_i<5npi<5,需要合并!
-
合并类别:
合并后得到k=8k=8k=8个类别:
{0,1},{2},{3},{4},{5},{6},{7},{8,9,10,11} \{0,1\},\{2\},\{3\},\{4\},\{5\},\{6\},\{7\},\{8,9,10,11\} {0,1},{2},{3},{4},{5},{6},{7},{8,9,10,11}合并后的理论频数均≥5\geq5≥5(比如{0,1}\{0,1\}{0,1}的np=1.5+6.3=7.8np=1.5+6.3=7.8np=1.5+6.3=7.8)。
-
计算χ²统计量:
核心公式:∑(fi−np^i)2np^i\sum \frac{(f_i - n\hat{p}_i)^2}{n\hat{p}_i}∑np^i(fi−np^i)2,代入数据计算得:
χ2=0.415+0.594+0.122+2.245+1.723+0.505+0.609+0.014=6.257\chi^2 = 0.415 + 0.594 + 0.122 + 2.245 + 1.723 + 0.505 + 0.609 + 0.014 = 6.257χ2=0.415+0.594+0.122+2.245+1.723+0.505+0.609+0.014=6.257 -
查临界值并判断:
- 自由度=k−γ−1=8−1−1=6k-\gamma-1=8-1-1=6k−γ−1=8−1−1=6(k=8k=8k=8,γ=1\gamma=1γ=1个未知参数λ\lambdaλ);
- 给定α=0.05\alpha=0.05α=0.05,查χ2\chi^2χ2分布表得χ0.952(6)=12.592\chi^2_{0.95}(6)=12.592χ0.952(6)=12.592;
- 因为6.257<12.5926.257 < 12.5926.257<12.592,所以接受H₀,即认为α\alphaα粒子数服从λ=4.2\lambda=4.2λ=4.2的泊松分布。
三、第二类应用:二维列联表独立性检验
(一)核心问题:检验两个指标是否独立
比如“吸烟与否”和“是否患慢性气管炎”是否有关?“性别”和“偏好的手机品牌”是否有关?这类问题可以转化为“两个指标XXX和YYY是否相互独立”,用列联表+Pearson检验解决。
补充:通常也称指标所取的状态为水平。
(二)r×s列联表的结构
假设XXX有rrr个类别(A1,⋯ ,ArA_1,\cdots,A_rA1,⋯,Ar),YYY有sss个类别(B1,⋯ ,BsB_1, \cdots, B_sB1,⋯,Bs),从总体抽nnn个样本,记录“X∈AiX\in A_iX∈Ai且Y∈BjY\in B_jY∈Bj”的个数nijn_{ij}nij(实际频数),整理成表格:
| Y&XY\&XY&X | B1B_1B1 | … | BsB_sBs | 行合计nin_ini |
|---|---|---|---|---|
| A1A_1A1 | n11n_{11}n11 | … | n1sn_{1s}n1s | n1=n11+⋯+n1sn_{1}=n_{11}+\dots+n_{1s}n1=n11+⋯+n1s |
| … | … | … | … | … |
| ArA_rAr | nr1n_{r1}nr1 | … | nrsn_{rs}nrs | nr=nr1+⋯+nrsn_{r}=n_{r1}+\dots+n_{rs}nr=nr1+⋯+nrs |
| 列合计njn_{j}nj | n1=n11+⋯+nr1n_{1}=n_{11}+\dots+n_{r1}n1=n11+⋯+nr1 | … | ns=n1s+⋯+nrsn_{s}=n_{1s}+\dots+n_{rs}ns=n1s+⋯+nrs | 总样本nnn |
(三)检验逻辑与公式
- 假设:H0H_0H0:XXX与YYY相互独立;H1H_1H1:不独立。
- 独立的等价条件:若XXX与YYY独立,则P(X∈Ai,Y∈Bj)=P(X∈Ai)⋅P(Y∈Bj)P(X\in A_i,Y\in B_j)=P(X\in A_i)\cdot P(Y\in B_j)P(X∈Ai,Y∈Bj)=P(X∈Ai)⋅P(Y∈Bj),即pij=pi⋅pjp_{ij}=p_i·p_jpij=pi⋅pj。
- 理论频数估计:
- 用频率估计概率:p^i⋅=nin\hat{p}_i·=\frac{n_i}{n}p^i⋅=nni(X∈AiX\in A_iX∈Ai的概率),p^j=njn\hat{p}_j=\frac{n_j}{n}p^j=nnj(Y∈BjY\in B_jY∈Bj的概率);
- 理论频数:np^ij=n⋅p^i⋅p^j=ni⋅njnn\hat{p}_{ij}=n·\hat{p}_i·\hat{p}_j=\frac{n_i·n_j}{n}np^ij=n⋅p^i⋅p^j=nni⋅nj。
- 检验统计量:
χ2=∑i=1r∑j=1s(nij−ni⋅njn)2ni⋅njn\chi^2 = \sum_{i=1}^r \sum_{j=1}^s \frac{(n_{ij} - \frac{n_i·n_j}{n})^2}{\frac{n_i·n_j}{n}}χ2=i=1∑rj=1∑snni⋅nj(nij−nni⋅nj)2 - 自由度:(r−1)(s−1)(r-1)(s-1)(r−1)(s−1)(因为有r+s−2r+s-2r+s−2个独立未知参数)。
(四)例:慢性气管炎与吸烟的独立性检验
题目背景
抽查50岁以上339339339人,得到2×22\times 22×2列联表(XXX=吸烟与否,YYY=患气管炎与否):
| 患慢性气管炎(B1B_1B1) | 未患慢性气管炎(B2B_2B2) | 行合计nin_ini | |
|---|---|---|---|
| 吸烟(A1A_1A1) | 43(n11n_{11}n11) | 162(n12n_{12}n12) | 205(n1n_1n1) |
| 不吸烟(A2A_2A2) | 13(n21n_{21}n21) | 121(n22n_{22}n22) | 134(n2n_2n2) |
| 列合计njn_jnj | 56(n1n_1n1) | 283(n2n_2n2) | 339(nnn) |
试在α=0.01\alpha=0.01α=0.01下检验“吸烟”与“患慢性气管炎”是否独立。
分步解答
-
建立假设:H0H_0H0:吸烟与患气管炎独立;H1H_1H1:不独立。
-
计算理论频数:
每个单元格的理论频数np^ij=ni⋅njnn\hat{p}_{ij}=\frac{n_i·n_j}{n}np^ij=nni⋅nj:- n11n_{11}n11的理论频数:205×56339≈33.86\frac{205×56}{339}≈33.86339205×56≈33.86;
- n12n_{12}n12的理论频数:205×283339≈171.14\frac{205×283}{339}≈171.14339205×283≈171.14;
- n21n_{21}n21的理论频数:134×56339≈22.14\frac{134×56}{339}≈22.14339134×56≈22.14;
- n22n_{22}n22的理论频数:134×283339≈111.86\frac{134×283}{339}≈111.86339134×283≈111.86。
-
计算χ²统计量:
χ2=(43−33.86)233.86+(162−171.14)2171.14+(13−22.14)222.14+(121−111.86)2111.86≈7.4688\chi^2 = \frac{(43-33.86)^2}{33.86} + \frac{(162-171.14)^2}{171.14} + \frac{(13-22.14)^2}{22.14} + \frac{(121-111.86)^2}{111.86} ≈7.4688χ2=33.86(43−33.86)2+171.14(162−171.14)2+22.14(13−22.14)2+111.86(121−111.86)2≈7.4688 -
查临界值并判断:
- 自由度=(2−1)(2−1)=1=(2-1)(2-1)=1=(2−1)(2−1)=1;
- α=0.01\alpha=0.01α=0.01,查χ2\chi^2χ2分布表得χ0.992(1)=6.635\chi^2_{0.99}(1)=6.635χ0.992(1)=6.635;
- 因为7.4688>6.6357.4688 > 6.6357.4688>6.635,所以拒绝H₀,即认为吸烟与患慢性气管炎有密切关系!
四、总结
Pearson检验的核心是“用χ2\chi^2χ2统计量衡量实际与理论的差异”,主要解决两类问题:
- 总体分布的拟合检验(判断总体是否服从预设分布);
- 列联表独立性检验(判断两个指标是否相关)。
关键点:
- 统计量的核心是“(实际-理论)²/理论”的求和;
- 自由度的计算:拟合检验是k−γ−1k-γ-1k−γ−1,独立性检验是(r−1)(s−1)(r-1)(s-1)(r−1)(s−1);
- 样本量n≥50n\geq50n≥50,理论频数npi≥5np_{i}\geq5npi≥5(否则合并类别)。
5315

被折叠的 条评论
为什么被折叠?



