法医学数据分析中的假设检验与相关统计方法
1. 假设检验的自我实现预言
在数据分析中,有一个有趣的观点:如果样本量足够大,最终会拒绝任何原假设。随着样本量 $n$ 增大,标准误差(相对于均值)会变得非常小。所以,只要样本量够大,就能拒绝任何原假设,即使是最微小的差异最终也会变得显著。这就是为什么我们总是需要用置信区间来量化显著差异。
2. $\chi^2$ 独立性检验
2.1 基本概念
$\chi^2$(卡方)独立性检验用于分析两个或多个变量的计数表。即当我们有两个或多个分类变量,并统计了落入这些变量“交叉”形成的类别中的观测数量时,可以使用该检验。
2.2 独立性规则
两个随机变量 $X$ 和 $Y$,若满足 $Pr(X \text{ 和 } Y) = Pr(X) \times Pr(Y)$,则称它们是独立的。在统计上,原假设和备择假设可表示为:
- $H_0: \pi_{ij} = \pi_i\pi_j$,对于所有的 $i$ 和 $j$
- $H_1: \pi_{ij} \neq \pi_i\pi_j$,对于某些 $i$ 和 $j$
其中,$\pi_{ij}$ 是随机选择的观测“落入”表中第 $ij$ 个单元格(即第 $i$ 行第 $j$ 列)的概率。
2.3 可解决的问题
$\chi^2$ 独立性检验可以回答以下问题:
- 两个变量是否相关或依赖?
- 这两个变量之间是否存在关系?
- 每个组的行频率或分布是否相同?
- 每个组的列频率或分布是否相同?
该检验通