非参数统计基础1——Pearson检验

原创于 2026-01-08 14:36:53 发布 · 377 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#概率论 #统计 #数理统计

非参数统计基础专栏收录该内容

2 篇文章

订阅专栏

非参数统计基础1——Pearson检验

一、非参数假设检验的核心场景

当我们研究一个总体时，常常不知道它的分布类型（比如不知道是正态分布、泊松分布还是其他分布），这时候需要通过样本信息检验“总体是否服从某个预设分布”，或者“两个指标是否独立”——这类不依赖总体分布形式的检验，就是非参数假设检验。而Pearson检验是解决这两类问题最常用的非参数方法。

二、第一类应用：总体分布的拟合检验

（一）核心思想：用“频率 vs 概率”判断分布是否匹配

我们知道，当样本量足够大时，事件发生的频率会稳定在其概率附近（大数定律）。比如，如果总体真的服从泊松分布，那么样本中“出现 $i$ 个 $α\alpha$ 粒子”的实际次数（实际频数 $f_i$ ），应该和根据泊松分布计算的理论次数（理论频数 $np_i$ ， $n$ 是样本量， $p_i$ 是该事件的概率）相差不大。

Pearson检验的核心，就是用一个统计量量化“实际频数与理论频数的差异”，如果差异太大，就拒绝“总体服从预设分布”的假设。

（二）关键公式与定理

Pearson统计量：
这个统计量专门衡量差异程度，公式为：
$χ2=∑i=1k(fi−npi)2npi\chi^2 = \sum_{i=1}^k \frac{(f_i - np_i)^2}{np_i}$
- 其中k是把总体取值范围分成的“互不相交的区间/事件类”个数；
- $f_i$ ：第 $i$ 类的实际频数（样本中落在该类的个数）；
- $np_i$ ：第 $i$ 类的理论频数（根据预设分布计算的期望个数）。
逻辑：如果总体真的服从预设分布（ $H_0$ 成立），( $f_i- np_i$ )应该很小，统计量 $χ2\chi^2$ 会偏小；如果差异大， $χ2\chi^2$ 会偏大——所以我们用 $χ2\chi^2$ 的大小作为检验标准。
Pearson定理（确定统计量的分布）：
当样本量n充分大（通常要求n≥50）时，无论总体原本服从什么分布，统计量 $χ2\chi^2$ 近似服从自由度为k-γ-1的χ²分布：
- 若预设分布 $F_0(x)$ 完全已知（无未知参数），则 $γ=0\gamma=0$ ，自由度=k-1；
- 若预设分布 $F_0(x)$ 有 $γ\gamma$ 个未知参数（比如泊松分布的 $λ\lambda$ 、正态分布的 $μ\mu$ 和 $σ\sigma$ ），需要用极大似然估计求出这些参数，此时自由度= $k - γ - 1$ 。
使用注意事项：
因为是“渐近分布”，必须满足两个条件：
- 样本量 $n≥50n\geq50$ ；
- 每个理论频数 $npi≥5np_i\geq5$ （最好 $≥10\geq10$ ），如果有 $np_i<5$ ，需要合并相邻的区间/类别，直到满足条件。

（三）检验步骤（6步走）

建立假设： $H_0$ ：总体服从预设分布 $F_0(x)$ ； $H_1$ ：不服从；
划分区间/类别：把总体取值范围 $(−∞,+∞)(-\infty, +\infty)$ 分成 $k$ 个互不相交的类 $,AkA_1,A_2,\cdots,A_k$ ；
计算理论频数 $np_i$ ：若 $F_0(x)$ 有未知参数，先做极大似然估计，再用得到的 $F (x)$ 计算 $p^i=P(X∈Ai)\hat{p}_i=P(X\in A_i)$ ，进而得到 $np^in\hat{p}_i$ （ $np_i$ ）；
统计实际频数 $f_i$ ：数样本中落在每个 $A_i$ 的个数；
计算 $χ2\chi^2$ 统计量的值；
查临界值：给定显著性水平 $α\alpha$ ，查 $χ2\chi^2$ 分布表得 $χ1−α2\chi^2_{1-\alpha}$ (自由度)，若 $χ2≥χ1−α2\chi^2\geq \chi^2_{1-\alpha}$ ，则拒绝 $H_0$ ，否则接受 $H_0$ 。

（四）例：检验α粒子数是否服从泊松分布

题目背景

在铀放射实验中，观察 $100$ 次（ $n = 100$ ），记录每次到达计数器的 $α\alpha$ 粒子数 $X$ ，实际频数 $f_i$ 如下：

粒子数 $i$	0	1	2	3	4	5	6	7	8	9	10	11
实际频数 $f_i$	1	5	16	17	26	11	9	9	2	1	2	1

理论上X应服从泊松分布： $P(X=i)=λii!e−λP(X=i)=\frac{\lambda^i}{i!}e^{-\lambda}$ （ $λ\lambda$ 未知），试在 $α=0.05\alpha=0.05$ 下检验理论是否符合实际。

分步解答

建立假设：
$H_0$ ： $X∼P(X=i)=λii!e−λX\sim P(X=i)=\frac{\lambda^i}{i!}e^{-\lambda}$ ； $H_1$ ：不服从。
估计未知参数λ：
泊松分布的均值 $E(X)=λE(X)=\lambda$ ，用极大似然估计（样本均值）：
$λ^=xˉ=∑i=011i⋅fin=0×1+1×5+2×16+...+11×1100=4.2\hat{\lambda} = \bar{x} = \frac{\sum_{i=0}^{11} i \cdot f_i}{n} = \frac{0×1 + 1×5 + 2×16 + ... + 11×1}{100} = 4.2$
划分类别并计算理论频数 $np_i$ ：
泊松分布是离散型，每个i就是一个类别，计算 $npi=100×4.2ii!e−4.2np_i = 100×\frac{4.2^i}{i!}e^{-4.2}$ ，结果如下（部分）：
- $i = 0$ ： $np0≈100×0.015=1.5np_0\approx100×0.015=1.5$ ；
- $i = 1$ ： $np1≈6.3np_1\approx6.3$ ；
- $i = 2$ ： $13.2$ ；
- …；
- $i = 11$ ： $np11≈0.1np_{11}\approx0.1$
注意： $i = 0 （ 1.5 ）$ 、 $i = 8 （ 3.6 ）$ 、 $i = 9 （ 1.7 ）$ 、 $i = 10 （ 0.7 ）$ 、 $i = 11 （ 0.1 ）$ 的 $np_i<5$ ，需要合并！
合并类别：
合并后得到 $k = 8$ 个类别：
${0,1\},\{2\},\{3\},\{4\},\{5\},\{6\},\{7\},\{8,9,10,11\}$

合并后的理论频数均 $≥5\geq5$ （比如 ${0,1\}$ 的 $n p = 1.5 + 6.3 = 7.8$ ）。
计算χ²统计量：
核心公式： $∑(fi−np^i)2np^i\sum \frac{(f_i - n\hat{p}_i)^2}{n\hat{p}_i}$ ，代入数据计算得：
$χ2=0.415+0.594+0.122+2.245+1.723+0.505+0.609+0.014=6.257\chi^2 = 0.415 + 0.594 + 0.122 + 2.245 + 1.723 + 0.505 + 0.609 + 0.014 = 6.257$
查临界值并判断：
- 自由度= $k−γ−1=8−1−1=6k-\gamma-1=8-1-1=6$ （ $k = 8$ ， $γ=1\gamma=1$ 个未知参数 $λ\lambda$ ）；
- 给定 $α=0.05\alpha=0.05$ ，查 $χ2\chi^2$ 分布表得 $χ0.952(6)=12.592\chi^2_{0.95}(6)=12.592$ ；
- 因为 $6.257 < 12.592$ ，所以接受H₀，即认为 $α\alpha$ 粒子数服从 $λ=4.2\lambda=4.2$ 的泊松分布。

三、第二类应用：二维列联表独立性检验

（一）核心问题：检验两个指标是否独立

比如“吸烟与否”和“是否患慢性气管炎”是否有关？“性别”和“偏好的手机品牌”是否有关？这类问题可以转化为“两个指标 $X$ 和 $Y$ 是否相互独立”，用列联表+Pearson检验解决。

补充：通常也称指标所取的状态为水平。

（二）r×s列联表的结构

假设 $X$ 有 $r$ 个类别（ $,ArA_1,\cdots,A_r$ ）， $Y$ 有 $s$ 个类别（ $,BsB_1, \cdots, B_s$ ），从总体抽 $n$ 个样本，记录“ $X∈AiX\in A_i$ 且 $Y∈BjY\in B_j$ ”的个数 $n_{ij}$ （实际频数），整理成表格：

$Y&XY\&X$	$B_1$	…	$B_s$	行合计 $n_i$
$A_1$	$n_{11}$	…	$n_{1s}$	$n1=n11+⋯+n1sn_{1}=n_{11}+\dots+n_{1s}$
…	…	…	…	…
$A_r$	$n_{r1}$	…	$n_{rs}$	$nr=nr1+⋯+nrsn_{r}=n_{r1}+\dots+n_{rs}$
列合计 $n_{j}$	$n1=n11+⋯+nr1n_{1}=n_{11}+\dots+n_{r1}$	…	$ns=n1s+⋯+nrsn_{s}=n_{1s}+\dots+n_{rs}$	总样本 $n$

（三）检验逻辑与公式

假设： $H_0$ ： $X$ 与 $Y$ 相互独立； $H_1$ ：不独立。
独立的等价条件：若 $X$ 与 $Y$ 独立，则 $P(X∈Ai,Y∈Bj)=P(X∈Ai)⋅P(Y∈Bj)P(X\in A_i,Y\in B_j)=P(X\in A_i)\cdot P(Y\in B_j)$ ，即 $p_{ij}=p_i·p_j$ 。
理论频数估计：
- 用频率估计概率： $p^i⋅=nin\hat{p}_i·=\frac{n_i}{n}$ （ $X∈AiX\in A_i$ 的概率）， $p^j=njn\hat{p}_j=\frac{n_j}{n}$ （ $Y∈BjY\in B_j$ 的概率）；
- 理论频数： $np^ij=n⋅p^i⋅p^j=ni⋅njnn\hat{p}_{ij}=n·\hat{p}_i·\hat{p}_j=\frac{n_i·n_j}{n}$ 。
检验统计量：
$χ2=∑i=1r∑j=1s(nij−ni⋅njn)2ni⋅njn\chi^2 = \sum_{i=1}^r \sum_{j=1}^s \frac{(n_{ij} - \frac{n_i·n_j}{n})^2}{\frac{n_i·n_j}{n}}$
自由度： $(r - 1) (s - 1)$ （因为有 $r + s - 2$ 个独立未知参数）。

（四）例：慢性气管炎与吸烟的独立性检验

题目背景

抽查50岁以上 $339$ 人，得到 $2×22\times 2$ 列联表（ $X$ =吸烟与否， $Y$ =患气管炎与否）：

	患慢性气管炎（ $B_1$ ）	未患慢性气管炎（ $B_2$ ）	行合计 $n_i$
吸烟（ $A_1$ ）	43（ $n_{11}$ ）	162（ $n_{12}$ ）	205（ $n_1$ ）
不吸烟（ $A_2$ ）	13（ $n_{21}$ ）	121（ $n_{22}$ ）	134（ $n_2$ ）
列合计 $n_j$	56（ $n_1$ ）	283（ $n_2$ ）	339（ $n$ ）

试在 $α=0.01\alpha=0.01$ 下检验“吸烟”与“患慢性气管炎”是否独立。

分步解答

建立假设： $H_0$ ：吸烟与患气管炎独立； $H_1$ ：不独立。
计算理论频数：
每个单元格的理论频数 $np^ij=ni⋅njnn\hat{p}_{ij}=\frac{n_i·n_j}{n}$ ：
- $n_{11}$ 的理论频数： $205×56339≈33.86\frac{205×56}{339}≈33.86$ ；
- $n_{12}$ 的理论频数： $205×283339≈171.14\frac{205×283}{339}≈171.14$ ；
- $n_{21}$ 的理论频数： $134×56339≈22.14\frac{134×56}{339}≈22.14$ ；
- $n_{22}$ 的理论频数： $134×283339≈111.86\frac{134×283}{339}≈111.86$ 。
计算χ²统计量：
$χ2=(43−33.86)233.86+(162−171.14)2171.14+(13−22.14)222.14+(121−111.86)2111.86≈7.4688\chi^2 = \frac{(43-33.86)^2}{33.86} + \frac{(162-171.14)^2}{171.14} + \frac{(13-22.14)^2}{22.14} + \frac{(121-111.86)^2}{111.86} ≈7.4688$
查临界值并判断：
- 自由度 $= (2 - 1) (2 - 1) = 1$ ；
- $α=0.01\alpha=0.01$ ，查 $χ2\chi^2$ 分布表得 $χ0.992(1)=6.635\chi^2_{0.99}(1)=6.635$ ；
- 因为 $7.4688 > 6.635$ ，所以拒绝H₀，即认为吸烟与患慢性气管炎有密切关系！