频率统计方法的问题及贝叶斯方法的优势
1. 计算药物无效的概率
在评估药物有效性时,我们可以计算在结果显示“显著”的情况下,药物实际上无效的概率。计算公式如下:
[
p(H_0|\text{‘significant’}) = \frac{p(\text{‘significant’}|H_0)p(H_0)}{p(\text{‘significant’}|H_0)p(H_0) + p(\text{‘significant’}|H_1)p(H_1)}
]
其中,$H_0$ 表示药物无效的假设,$H_1$ 表示药物有效的假设。进一步推导可得:
[
p(H_0|\text{‘significant’}) = \frac{p(\text{type I error})p(H_0)}{p(\text{type I error})p(H_0) + (1 - p(\text{type II error}))p(H_1)} = \frac{\alpha p(H_0)}{\alpha p(H_0) + (1 - \beta)p(H_1)}
]
如果根据以往经验,我们知道大多数(例如 90%)药物是无效的,那么计算得到 $p(H_0|\text{‘significant’}) = 0.36$,这远高于人们通常认为的 $\alpha = 0.05$ 对应的 5% 的概率。这表明,如果统计显著性的结论与我们的先验知识相冲突,我们应该对这些结论持怀疑态度。
2. p 值依赖于停止规则
p 值的计算存在一个问题,即它依赖于我们决定何时停止收集数据的决策,即使这些决策并没有改变我们实际观察到的数据。以下是一个抛硬币的例子来说明:
2.1 固定抛掷次数的情况
假设我们抛硬币 $n = 12$ 次,观察到 $s = 9$ 次正面(成功)和 $f = 3$ 次反面(失败)。此时,$n$ 是固定的,$s$ 是随机的。相关的抽样模型是二项分布:
[
Bin(s|n, \theta) = \binom{n}{s} \theta^s (1 - \theta)^{n - s}
]
假设原假设是硬币是公平的,即 $\theta = 0.5$。使用检验统计量 $\tau(D) = s$,单边 p 值为:
[
p_1 = Pr(S \geq 9|H_0) = \sum_{s = 9}^{12} Bin(s|12, 0.5) = \sum_{s = 9}^{12} \binom{12}{s} 0.5^{12} = 0.073
]
双边 p 值为:
[
p_2 = \sum_{s = 9}^{12} Bin(s|12, 0.5) + \sum_{s = 0}^{3} Bin(s|12, 0.5) = 0.073 + 0.073 = 0.146
]
在这两种情况下,p 值都大于 5% 的阈值,因此频率主义者不会拒绝原假设。
2.2 固定反面次数的情况
现在假设我们实际上是一直抛硬币,直到观察到 $f = 3$ 次反面。此时,$f$ 是固定的,$s$ 是随机的,概率模型变为负二项分布:
[
NegBinom(s|f, \theta) = \binom{s + f - 1}{f - 1} \theta^s (1 - \theta)^f
]
在负二项分布模型下,单边 p 值为:
[
p_3 = Pr(S \geq 9|H_0) = \sum_{s = 9}^{\infty} \binom{3 + s - 1}{2} (1/2)^s (1/2)^3 = 0.0327
]
此时 p 值为 3%,突然似乎有显著证据表明硬币存在偏差!但实际上数据是相同的,我们对硬币的推断应该是相同的。这说明停止规则不应该影响我们的推断。
2.3 实际影响
这种 p 值依赖于停止规则的情况在实际中有重要影响。频率主义者通常不会提前终止实验,即使结论已经很明显,以免影响统计分析。如果实验成本高昂或对人有害,这显然是个坏主意。因此,美国食品药品监督管理局(FDA)最近开始支持贝叶斯方法,因为贝叶斯方法不受停止规则的影响。
3. 为什么不是每个人都是贝叶斯主义者
基于频率主义原则的推断(如使用置信区间、p 值和零假设显著性检验)可能会表现出各种违反直觉的行为,有时甚至与常识相悖。根本原因是频率主义推断违反了似然性原则,该原则认为推断应该基于观察到的数据的似然性,而不是未观察到的假设未来数据。贝叶斯方法显然满足似然性原则,因此不会受到这些问题的困扰。
尽管频率统计方法存在这些根本缺陷,而贝叶斯方法没有这些问题,但并不是每个人都是贝叶斯主义者。原因主要有以下几点:
-
历史原因
:曾经大家都是贝叶斯主义者,拉普拉斯等 19 世纪的科学家都支持贝叶斯的推断问题表述,但 20 世纪的统计学主要是非贝叶斯的。
-
计算问题
:传统上,计算是使用贝叶斯方法的障碍,但现在由于计算机速度更快和算法更好,这个问题已经不那么严重了。
-
建模假设
:贝叶斯方法的正确性依赖于其建模假设,但这一批评也适用于频率主义方法,因为估计量的抽样分布也需要基于数据生成机制的假设。不过,我们可以通过交叉验证、校准和贝叶斯模型检查等方法来验证这些假设。
下面是一个简单的流程图来总结频率统计和贝叶斯统计的区别:
graph LR
A[数据收集] --> B{统计方法}
B --> C[频率统计]
B --> D[贝叶斯统计]
C --> E[p值依赖停止规则]
C --> F[违反似然性原则]
D --> G[不受停止规则影响]
D --> H[满足似然性原则]
4. 练习题
4.1 练习 E.1
证明 $\hat{\sigma}^2_{MLE} = \frac{1}{N} \sum_{n = 1}^{N} (x_n - \hat{\mu})^2$ 是 $\sigma^2$ 的有偏估计,即证明:
[
E_{X_1, \ldots, X_n \sim N(\mu, \sigma)}[\hat{\sigma}^2(X_1, \ldots, X_n)] \neq \sigma^2
]
提示:注意 $X_1, \ldots, X_N$ 是独立的,并利用独立随机变量乘积的期望等于期望的乘积这一事实。
4.2 练习 E.2
假设我们从 $N(\mu, \sigma^2)$ 中抽样 $x_1, \ldots, x_N$,其中 $\mu$ 是已知常数。推导这种情况下 $\sigma^2$ 的最大似然估计(MLE)表达式,并判断它是否无偏。
4.3 练习 E.3
证明高斯方差的 MLE 的标准误差为:
[
\sqrt{V[\sigma^2_{mle}]} = \sqrt{\frac{2(N - 1)}{N^2}} \sigma^2
]
提示:使用 $\frac{N - 1}{\sigma^2} \sigma^2_{unb} \sim \chi^2_{N - 1}$ 和 $V[\chi^2_{N - 1}] = 2(N - 1)$。最后,证明 $MSE(\sigma^2_{unb}) = \frac{2N - 1}{N^2} \sigma^4$ 和 $MSE(\sigma^2_{mle}) = \frac{2}{N - 1} \sigma^4$。
通过这些练习题,可以进一步加深对频率统计和贝叶斯统计的理解。在实际应用中,我们应该根据具体情况选择合适的统计方法,同时要注意验证模型假设,以确保统计推断的可靠性。
5. 频率统计与贝叶斯统计的对比总结
为了更清晰地对比频率统计和贝叶斯统计,我们可以通过以下表格来展示它们的主要差异:
| 对比项 | 频率统计 | 贝叶斯统计 |
| ---- | ---- | ---- |
| p 值计算 | 依赖停止规则,相同数据不同停止规则可能得到不同 p 值 | 不受停止规则影响 |
| 推断原则 | 违反似然性原则,基于假设的未来数据 | 满足似然性原则,基于观察到的数据的似然性 |
| 历史应用 | 20 世纪统计学主要采用 | 曾经被广泛支持,如今逐渐受到更多关注 |
| 计算难度 | 相对简单 | 传统上计算有障碍,现在有所改善 |
| 建模假设 | 需要基于数据生成机制假设推导抽样分布 | 正确性依赖建模假设,但可验证 |
从这个表格中可以看出,频率统计和贝叶斯统计在多个方面存在明显的差异。频率统计在某些情况下可能会因为 p 值依赖停止规则等问题导致不合理的推断,而贝叶斯统计在理论上更符合似然性原则,并且不受停止规则的干扰。
6. 实际应用中的选择建议
在实际应用中,我们应该如何选择频率统计方法还是贝叶斯统计方法呢?以下是一些建议:
-
数据量和先验信息
- 如果数据量非常大,且没有明显的先验信息,频率统计方法可能是一个不错的选择。因为在大量数据下,频率统计的估计结果通常会比较稳定。
- 如果有可靠的先验信息,贝叶斯统计可以更好地利用这些信息,从而得到更准确的推断。例如,在药物研发中,如果之前有类似药物的研究数据,就可以将这些数据作为先验信息应用到贝叶斯分析中。
-
实验性质
- 对于一些实验成本高、时间长或者对实验对象有潜在危害的实验,贝叶斯统计更具优势。因为贝叶斯方法不受停止规则的影响,可以根据实验进展及时做出决策,避免不必要的实验继续进行。
- 对于一些简单的、可以重复进行的实验,频率统计方法可能更容易操作和理解。
-
模型复杂度
- 如果模型比较简单,频率统计方法可能能够快速得到结果。
- 如果模型复杂,贝叶斯统计可以通过引入先验分布来对模型进行正则化,避免过拟合问题。
下面是一个决策流程图,帮助我们在实际应用中选择合适的统计方法:
graph LR
A[实际问题] --> B{数据量和先验信息}
B -->|数据量大且无先验信息| C[频率统计]
B -->|有可靠先验信息| D{实验性质}
D -->|实验成本高、有危害| E[贝叶斯统计]
D -->|简单可重复实验| F{模型复杂度}
F -->|模型简单| C
F -->|模型复杂| E
7. 总结与展望
频率统计方法在统计学的发展历程中占据了重要的地位,它为我们提供了许多实用的工具和方法。然而,频率统计方法也存在一些问题,如 p 值依赖停止规则、违反似然性原则等,这些问题可能导致不合理的推断。相比之下,贝叶斯统计方法具有不受停止规则影响、满足似然性原则等优点,能够更好地处理先验信息和复杂模型。
随着计算机技术的不断发展和算法的不断改进,贝叶斯统计方法的计算问题得到了很大的缓解。同时,越来越多的领域开始认识到贝叶斯统计的优势,如医学、金融、机器学习等。未来,我们有理由相信,贝叶斯统计方法将在更多的领域得到广泛应用,并且与频率统计方法相互补充,共同推动统计学的发展。
在实际应用中,我们应该根据具体问题的特点,综合考虑数据量、先验信息、实验性质和模型复杂度等因素,选择合适的统计方法。同时,我们也要重视对模型假设的验证,确保统计推断的可靠性。通过不断地学习和实践,我们可以更好地掌握频率统计和贝叶斯统计方法,为解决实际问题提供更有效的支持。
希望通过本文的介绍,能够帮助读者更好地理解频率统计和贝叶斯统计的区别和联系,在实际应用中做出更明智的选择。如果你对统计方法还有其他疑问或者想要深入探讨的问题,欢迎在评论区留言交流。
超级会员免费看
757

被折叠的 条评论
为什么被折叠?



