假设检验与频率统计的陷阱
在统计学中,假设检验是一种重要的方法,用于根据数据集在两个假设之间做出选择。本文将介绍假设检验的常见方法,以及频率统计中存在的一些问题。
1. VC维度
当假设空间H是无限的(例如,我们有实值参数)时,不能使用dim(H) = |H|。此时,可以使用由Vapnik和Chervonenkis提出的VC维度,它用于衡量假设类的自由度(有效参数数量)。然而,对于许多有趣的模型,计算VC维度很困难,而且其上界通常很宽松,这使得该方法的实际价值有限。不过,最近已经设计出了各种更实用的泛化误差估计方法,特别是针对深度神经网络。
2. 假设检验概述
假设有两个假设:原假设H0和备择假设H1,我们希望根据数据集D选择认为正确的那个。可以使用贝叶斯方法计算贝叶斯因子p(H0|D)/p(H1|D),但这需要对模型H0和H1的所有可能参数化进行积分,计算困难且对先验选择敏感。因此,这里考虑频率主义方法。
3. 似然比检验
如果使用0 - 1损失,并假设p(H0) = p(H1),则最优决策规则是当p(D|H0)/p(D|H1) > 1时接受H0,这就是似然比检验。
-
比较高斯均值的例子
:假设要测试数据是来自均值为µ0的高斯分布还是均值为µ1的高斯分布(假设已知共享方差σ2)。似然比可以推导为:
[
\frac{p(D|H_0)}{p(D|H_1)} = \frac{\exp\left(-\frac{1}{2\sigma^2}\sum_{n = 1}^{N}(x_n - \mu_0)^2\right)}{\exp\left(-\frac{1}{2\sigma^2}\sum_{n = 1}^{N}(x_n - \mu_1)^2\right)} = \exp\left(\frac{1}{2\sigma^2}(2N\bar{x}(\mu_0 - \mu_1) + N\mu_1^2 - N\mu_0^2)\right)
]
这个比值仅通过样本均值(\bar{x})依赖于观测数据,(\bar{x})是假设检验的一个标量充分统计量。从图中可以看出,当(\bar{x} < x^
)时,(\frac{p(D|H_0)}{p(D|H_1)} > 1),其中(x^
)是两个概率密度函数的交点。
-
简单假设与复合假设
:在比较高斯均值的例子中,原假设和备择假设的参数要么完全指定(µ0和µ1),要么共享(σ2),这称为简单假设检验。一般来说,假设可能没有完全指定所有参数,这称为复合假设。在这种情况下,应该像贝叶斯方法那样对这些未知参数进行积分。作为近似,可以“最大化它们”,得到最大似然比检验:
[
\frac{p(H_0|D)}{p(H_1|D)} = \frac{\int_{\theta\in H_0} p(\theta)p_{\theta}(D)}{\int_{\theta\in H_1} p(\theta)p_{\theta}(D)} \approx \frac{\max_{\theta\in H_0} p_{\theta}(D)}{\max_{\theta\in H_1} p_{\theta}(D)}
]
4. 原假设显著性检验(NHST)
通常不假设0 - 1损失,而是设计决策规则,使其第一类错误率(意外拒绝原假设H0的概率)为α,α称为检验的显著性水平,这种方法称为原假设显著性检验(NHST)。
在高斯均值的例子中,第一类错误率是图中垂直阴影蓝色区域:
[
\alpha(\mu_0) = p(\text{reject } H_0|H_0 \text{ is true}) = p(X(\tilde{D}) > x^
|\tilde{D} \sim H_0) = p\left(\frac{X - \mu_0}{\sigma/\sqrt{N}} > \frac{x^
- \mu_0}{\sigma/\sqrt{N}}\right)
]
因此,(x^
= z_{\alpha}\sigma/\sqrt{N} + \mu_0),其中(z_{\alpha})是标准正态分布的上α分位数。
第二类错误率是当备择假设为真时意外接受原假设的概率:
[
\beta(\mu_1) = p(\text{type II error}) = p(\text{accept } H_0|H_1 \text{ is true}) = p(\tau(\tilde{D}) < \tau^
|\tilde{D} \sim H_1)
]
检验的功效定义为1 - β(µ1),即当H1为真时拒绝H0的概率。如果两个检验A和B在相同的第一类错误率下,power(B) ≥ power(A),则称B优于A。在所有显著性水平为α的检验中,在H1下具有最高功效的检验称为最有效检验。似然比检验是最有效检验,这一结果称为奈曼 - 皮尔逊引理。
5. t检验
假设有两组配对样本(y_{1i})和(y_{2i}),(i = 1:N)。例如,(y_{1i})可能是某人服用药物前的血压,(y_{2i})可能是服用药物后的血压。令(x_i = y_{1i} - y_{2i}),通常可以合理假设(x_i \sim N(\mu, \sigma^2)),其中µ是药物对血压的未知影响。
要检验原假设H0 : µ = 0(即药物没有效果),给定样本(x = (x_1, …, x_N)),检验统计量为(\bar{x} = \frac{1}{N}\sum_{i = 1}^{N} x_i)。可以证明,在原假设下(\bar{x})的抽样分布为:
[
p(\bar{x}|\mu) = T(\bar{x}|\mu, s^2/N, N - 1)
]
这与从相同高斯似然和无信息先验导出的后验(p(\mu|\bar{x}))形式相同,但解释不同:在抽样分布中,数据(因此(\bar{x}))是随机的,参数µ是固定的;而在贝叶斯后验中,数据(\bar{x})是固定的,参数µ是未知的,因此是随机的。
假设检验的决策规则是:当(\bar{x} \leq x^
)时接受H0,其中(x^
)的选择使得(p(\bar{x} \geq x^*|\mu) = 1 - \alpha),α = 0.05是显著性水平,这就是(单样本)t检验。
6. χ2检验
假设有两组未配对样本,X = {x1, …, xN} 来自分布P,X’ = {(\tilde{x}_1), …, (\tilde{x}_M)} 来自分布Q,要检验原假设H0 : P = Q 与备择假设H1 : P ≠ Q,这是双样本检验。
这里假设数据对应于两个不同组的二元事件频率。例如,想知道男性是否比女性更常见左撇子,数据如下表所示:
| | LH | RH | 总数 |
| — | — | — | — |
| 男性 | 9 | 43 | 52 |
| 女性 | 4 | 44 | 48 |
| 总数 | 13 | 87 | 100 |
男性和女性左撇子率的最大似然估计分别为(\hat{\theta}
1 = 9/52 = 0.1731)和(\hat{\theta}_2 = 4/48 = 0.0417)。
为了检验原假设,需要一个数据表格的汇总统计量(\tau(D))。在列联表的情况下,常用卡方统计量,它是观察计数(O
{ij})与行和列变量独立时预期计数(E_{ij})之差的函数,定义为:
[
\chi^2(D) \triangleq \sum_{i = 1}^{I}\sum_{j = 1}^{J} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}
]
其中(E_{ij} = N\hat{\theta}
{i.}\hat{\theta}
{.j}),(\hat{\theta}
{i.} \triangleq \frac{1}{N}\sum
{j = 1}^{J} O_{ij}),(\hat{\theta}
{.j} \triangleq \frac{1}{N}\sum
{i = 1}^{I} O_{ij}),I是行数,J是列数。
可以证明,从原分布抽样的列联表(\tilde{D})的卡方统计量具有卡方分布,即(\chi^2(\tilde{D})|H_0 \sim \chi^2_{\nu}(\cdot)),其中(\nu = (I - 1)(J - 1))是自由度。在显著性水平α = 0.95下拒绝原假设的临界值(c^
)通过求解(\alpha = Pr(\chi^2(\tilde{D}) > c^
|\tilde{D} \sim H_0))得到。如果(\chi^2(D) < c^
),则不拒绝原假设,这就是皮尔逊卡方检验。
对于上述左撇子数据,(\chi^2(D) = 1.77),(c^
= 3.8415),因此得出左撇子和性别是独立的结论,但考虑到估计率的巨大差异,这似乎有点奇怪。当样本量较小时,可以使用Fisher精确检验分析2x2列联表,也可以应用许多其他检验。当然,也可以进行贝叶斯分析。
7. p值
当拒绝H0时,通常说结果在水平α下具有统计显著性。但结果可能在统计上显著,但在实际中不显著,这取决于检验统计量与决策边界的距离。
更合适的做法是引用p值,它定义为在原假设下,观察到与实际观察到的检验统计量一样大或更大的概率:
[
pval(\tau(D)) \triangleq Pr(\tau(\tilde{D}) \geq \tau(D)|\tilde{D} \sim H_0)
]
如果只接受p值小于α = 0.05的假设,那么95%的时间会正确拒绝原假设,但这并不意味着备择假设H1以0.95的概率为真。实际上,即使是大多数科学家也会误解p值。人们通常想计算的是贝叶斯后验(p(H_1|D) = 0.95)。
下面是一个简单的mermaid流程图,展示假设检验的基本流程:
graph TD;
A[提出原假设H0和备择假设H1] --> B[选择检验方法];
B --> C[计算检验统计量];
C --> D[确定显著性水平α];
D --> E[根据检验统计量和α做出决策];
E --> F{是否拒绝H0};
F -- 是 --> G[接受H1];
F -- 否 --> H[接受H0];
综上所述,假设检验是统计学中的重要工具,但在使用频率统计方法时,需要注意p值和置信区间的正确解释,避免因误解而得出错误的结论。在实际应用中,可以根据具体情况选择合适的检验方法,并结合贝叶斯方法进行更准确的推断。
假设检验与频率统计的陷阱(下半部分)
8. 频率统计的病态问题
频率统计存在各种违反直觉(甚至可以说是病态)的性质,下面将总结其中的一些问题。
9. 置信区间不可信
95%的频率主义置信区间对于参数θ的定义是任何区间I(˜D),使得Pr(θ ∈ I(˜D)|˜D ∼ θ) = 0.95 。但这并不意味着在给定观测数据的情况下,参数有95%的可能性落在这个区间内。人们通常想要计算的这个量,实际上是由贝叶斯可信区间p(θ ∈ I|D) 给出的。
这两个概念有很大的不同:在频率主义方法中,θ被视为一个未知的固定常数,而数据被视为随机的;在贝叶斯方法中,数据是固定的(因为它是已知的),而参数是随机的(因为它是未知的)。
这种违反直觉的置信区间定义可能会导致奇怪的结果。以下是两个例子:
-
整数抽样示例
:假设从分布
[
p(y|\theta) =
\begin{cases}
0.5 & \text{if } y = \theta \
0.5 & \text{if } y = \theta + 1 \
0 & \text{otherwise}
\end{cases}
]
中抽取两个整数D = (y1, y2)。如果θ = 39,我们期望以下结果各有0.25的概率:(39, 39), (39, 40), (40, 39), (40, 40)。
设m = min(y1, y2),并定义区间 [ℓ(D), u(D)] = [m, m],对于上述样本,得到 [39, 39], [39, 39], [39, 39], [40, 40]。显然,这是一个75%的置信区间,因为39包含在这些区间的3/4中。然而,如果观察到D = (39, 40),那么p(θ = 39|D) = 1.0,即我们知道θ一定是39,但我们只有75%的“置信度”。这表明如果从不同的随机抽样数据集中计算多个置信区间,置信区间将“覆盖”真实参数75%的时间,但如果只有一个观测数据集和一个置信区间,频率主义的“覆盖”概率可能会非常误导。
-
伯努利分布示例
:假设要估计伯努利分布的参数θ。设(\bar{y} = \frac{1}{N}\sum_{n = 1}^{N} y_n) 是样本均值,最大似然估计是(\hat{\theta} = \bar{y})。伯努利参数的近似95%置信区间是(\bar{y} \pm 1.96\sqrt{\frac{\bar{y}(1 - \bar{y})}{N}})(这称为Wald区间,基于二项分布的高斯近似)。考虑一个单一试验,其中N = 1且y1 = 0,最大似然估计是0,这存在过拟合问题。而95%的置信区间也是(0, 0),这似乎更糟糕。虽然可以认为这个缺陷是因为用高斯近似了真实的抽样分布,或者样本量太小,或者参数“太极端”,但Wald区间即使对于大N和非极端参数也可能表现不佳。相比之下,具有非信息性Jeffreys先验的贝叶斯可信区间的表现符合我们的预期。
下面是一个表格总结这两个例子的情况:
| 示例 | 数据情况 | 频率主义置信区间 | 贝叶斯推断情况 | 问题说明 |
| — | — | — | — | — |
| 整数抽样 | D = (y1, y2),θ = 39 | 75% CI可能与实际推断不符 | p(θ = 39|D) = 1.0 | 置信区间覆盖概率与实际认知矛盾 |
| 伯努利分布 | N = 1,y1 = 0 | (0, 0) | 贝叶斯可信区间表现正常 | 置信区间可能过拟合 |
10. p值混淆演绎与归纳
p值通常被解释为在原假设下数据的似然性,因此小的值被解释为H0不太可能,从而H1可能。推理大致如下:“如果H0为真,那么这个检验统计量可能不会出现。这个统计量出现了。因此H0可能是错误的”。然而,这种推理是无效的。
以下是一个例子来说明:“如果一个人是美国人,那么他可能不是国会议员。这个人是国会议员。因此他可能不是美国人”。这显然是错误的推理。
而有效的逻辑论证是:“如果一个人是火星人,那么他不是国会议员。这个人是国会议员。因此他不是火星人”。
前者是归纳推理,即从观察到的证据反向推理到可能(但不一定是真)的原因,使用的是统计规律而非逻辑定义;后者是演绎推理,即从逻辑定义向前推理到其结果,使用的是逻辑规则中的modus tollens。
要进行归纳,需要使用概率推理。要计算原假设的概率,应该使用贝叶斯规则:
[
p(H_0|D) = \frac{p(D|H_0)p(H_0)}{p(D|H_0)p(H_0) + p(D|H_1)p(H_1)}
]
如果先验是均匀的,即p(H0) = p(H1) = 0.5,这可以用似然比LR = p(D|H0)/p(D|H1) 重写为:
[
p(H_0|D) = \frac{LR}{LR + 1}
]
在上述美国国会议员的例子中,D是观察到这个人是国会议员,原假设H0是这个人是美国人,备择假设H1是这个人不是美国人。假设p(D|H0) 很低,因为大多数美国人不是国会议员,但p(D|H1) 也很低(在这个例子中是0,因为只有美国人才可以是国会议员),因此LR = ∞,所以p(H0|D) = 1.0,这符合直觉。然而,原假设显著性检验(NHST)忽略了p(D|H1) 和先验p(H0),所以会给出错误的结果。
11. p值夸大了反对原假设的证据
一般来说,p值和p(H0|D) 之间可能存在巨大差异。例如,即使p值低至0.05,H0的后验概率也可能高达30%或更多。
考虑一个具体的例子:假设对某种药物进行200次临床试验,进行统计检验判断药物是否有显著效果,检验的第一类错误率α = 0.05,第二类错误率β = 0.2,结果数据如下表所示:
| | 无效 | 有效 | 总数 |
| — | — | — | — |
| “不显著” | 171 | 4 | 175 |
| “显著” | 9 | 16 | 25 |
| 总数 | 180 | 20 | 200 |
这个例子表明,p值可能会夸大反对原假设的证据,不能简单地根据p值来判断原假设的真假。
下面是一个mermaid流程图,展示p值在假设检验中的错误解读问题:
graph TD;
A[计算p值] --> B{p值 < α?};
B -- 是 --> C[错误认为H0以高概率为假,H1以高概率为真];
B -- 否 --> D[接受H0];
E[使用贝叶斯规则计算p(H0|D)] --> F[得到正确的H0后验概率];
C --> G[可能得出错误结论];
F --> H[得出合理结论];
在实际应用假设检验时,我们需要谨慎对待频率统计中的这些问题。不能仅仅依赖p值和频率主义置信区间来做出决策,而应该结合贝叶斯方法等,对数据进行更全面、准确的分析,以避免因错误的统计解读而导致错误的结论。
超级会员免费看
371

被折叠的 条评论
为什么被折叠?



