频率统计中的关键概念与方法
1. 自助法与后验分布
自助法(Bootstrap)在某些情况下可被视为一种“穷人的”后验分布。参数估计值 $\hat{\theta}_s = \pi(D^{(s)})$ 由自助法计算得出,而参数值 $\theta_s \sim p(\cdot|D)$ 是从后验分布中采样得到的。从概念上讲,二者有很大区别,但在估计器为最大似然估计(MLE)且先验不太强的常见情况下,它们会非常相似。例如,使用均匀 Beta(1,1) 先验计算后验分布并从中采样,会发现后验分布和采样分布十分相似。所以,自助法分布可被看作是一种简化的后验分布。
不过,令人意外的是,自助法可能比后验采样更慢。这是因为自助法需要生成 $S$ 个采样数据集,然后对每个数据集进行模型拟合;而后验采样只需对单个数据集进行一次“拟合”。
2. 置信区间
在频率统计中,我们利用采样分布的变异性来估计参数估计的不确定性。对于参数估计 $\theta$,定义 $100(1 - \alpha)\%$ 置信区间 $I(\tilde{D}) = (\ell(\tilde{D}), u(\tilde{D}))$ 满足:
$Pr(\theta \in I(\tilde{D})|\tilde{D} \sim \theta) = 1 - \alpha$
通常取 $\alpha = 0.05$,得到 95% 置信区间。这意味着,如果我们反复采样数据并为每个数据集计算 $I(\tilde{D})$,大约 95% 的区间将包含真实参数 $\theta$。但要注意,这并不意味着对于任何特定数据集,$\theta$ 以 95% 的概率在 $I(D)$ 内,这是贝叶斯可信区间的计算方式,而非频率统计置信区间的计算方式。
计算置信区间的方法如下:
假设 $\hat{\theta}$ 是参数 $\theta$ 的估计值,$\theta^
$ 是其真实但未知的值。若已知 $\Delta = \hat{\theta} - \theta^
$ 的采样分布,设 $\delta$ 和 $\bar{\delta}$ 分别为其 $\alpha/2$ 和 $1 - \alpha/2$ 分位数,则有:
$Pr(\delta \leq \hat{\theta} - \theta^* \leq \bar{\delta}) = 1 - \alpha$
整理可得:
$Pr(\hat{\theta} - \bar{\delta} \leq \theta^* \leq \hat{\theta} - \delta) = 1 - \alpha$
因此,$I(\tilde{D}) = (\hat{\theta}(\tilde{D}) - \delta(\tilde{D}), \hat{\theta}(\tilde{D}) + \bar{\delta}(\tilde{D}))$ 就是 $100(1 - \alpha)\%$ 置信区间。
在某些情况下,我们可以解析计算 $\Delta = \hat{\theta} - \theta^
$ 的分布,从而得到精确的置信区间。但更常见的是假设采样分布服从高斯近似,此时有:
$\sqrt{NF(\hat{\theta})}(\hat{\theta} - \theta^
) \sim N(0, 1)$
可以使用以下公式计算近似置信区间:
$\hat{\theta} \pm z_{\alpha/2} \hat{se}$
其中 $z_{\alpha/2}$ 是高斯累积分布函数的 $\alpha/2$ 分位数,$\hat{se} = 1 / \sqrt{NF(\hat{\theta})}$ 是估计的标准误差。当 $\alpha = 0.05$ 时,$z_{\alpha/2} = 1.96$,这就解释了常见的近似 $\hat{\theta} \pm 2\hat{se}$。
如果高斯近似效果不佳,可以使用自助法近似。具体做法是从 $\hat{\theta}(D)$ 中采样 $S$ 个数据集,对每个数据集应用估计器得到 $\hat{\theta}(D^{(s)})$,然后使用 $\hat{\theta}(D) - \hat{\theta}(D^{(s)})$ 的经验分布作为 $\Delta$ 采样分布的近似。
3. 偏差和方差
估计器是应用于数据以返回估计值的过程。在频率统计中,我们将数据视为从某个真实但未知的分布 $p^ (D)$ 中抽取的随机变量,这会在估计值上诱导出一个分布 $p^ (\hat{\theta}(D))$,即采样分布。下面讨论该分布的两个关键属性:偏差和方差。
3.1 估计器的偏差
估计器的偏差定义为:
$bias(\hat{\theta}(\cdot)) \triangleq E[\hat{\theta}(D)] - \theta^*$
其中 $\theta^
$ 是真实参数值,期望是关于“自然分布” $p(D|\theta^
)$ 而言的。如果偏差为零,则该估计器称为无偏估计器。例如,高斯均值的最大似然估计是无偏的:
$bias(\hat{\mu}) = E [x] - \mu = E[\frac{1}{N} \sum_{n=1}^{N} x_n] - \mu = \frac{N\mu}{N} - \mu = 0$
然而,高斯方差的最大似然估计 $\sigma_{mle}^2 = \frac{1}{N} \sum_{n=1}^{N} (x_n - \bar{x})^2$ 不是 $\sigma^2$ 的无偏估计器。实际上,可以证明:
$E[\sigma_{mle}^2] = \frac{N - 1}{N} \sigma^2$
这意味着最大似然估计器会略微低估方差。直观地说,这是因为我们使用一个数据点来估计均值,所以当样本量为 1 时,方差估计值为 0。但如果 $\mu$ 已知,最大似然估计器是无偏的。
考虑以下估计器:
$\sigma_{unb}^2 \triangleq \frac{1}{N - 1} \sum_{n=1}^{N} (x_n - \bar{x})^2 = \frac{N}{N - 1} \sigma_{mle}^2$
它是一个无偏估计器,证明如下:
$E[\sigma_{unb}^2] = \frac{N}{N - 1} E[\sigma_{mle}^2] = \frac{N}{N - 1} \cdot \frac{N - 1}{N} \sigma^2 = \sigma^2$
3.2 估计器的方差
我们通常希望估计器是无偏的,但仅有无偏性是不够的。例如,在估计高斯均值时,仅查看第一个数据点的估计器 $\hat{\theta}(D) = x_1$ 是无偏的,但通常比样本均值 $\bar{x}$ 离 $\theta^*$ 更远。因此,估计器的方差也很重要。
估计器的方差定义为:
$V[\hat{\theta}] \triangleq E[\hat{\theta}^2] - (E[\hat{\theta}])^2$
期望是关于 $p(D|\theta^*)$ 而言的,它衡量了估计值随数据变化的程度。对于向量值估计器,可将其扩展为协方差矩阵。
3.3 克拉默 - 拉奥下界
直观上,我们希望估计器的方差尽可能小。克拉默 - 拉奥下界为任何无偏估计器的方差提供了一个下限。对于独立同分布的样本 $X_1, \ldots, X_N \sim p(X|\theta^
)$ 和无偏估计器 $\hat{\theta} = \hat{\theta}(x_1, \ldots, x_N)$,在 $p(X|\theta^
)$ 的各种平滑性假设下,有:
$V[\hat{\theta}] \geq \frac{1}{NF(\theta^*)}$
其中 $F(\theta^*)$ 是费舍尔信息矩阵。可以证明,最大似然估计达到了克拉默 - 拉奥下界,因此具有任何无偏估计器的最小渐近方差,即最大似然估计是渐近最优的。
3.4 偏差 - 方差权衡
在选择参数估计方法时,若目标是最小化估计的均方误差(MSE),就需要进行偏差 - 方差权衡。设 $\hat{\theta} = \hat{\theta}(D)$ 为估计值,$\theta = E[\hat{\theta}]$ 为估计值的期望值(数据变化时)。则有:
$E[(\hat{\theta} - \theta^
)^2] = E[((\hat{\theta} - \theta) + (\theta - \theta^
))^2]$
$= E[(\hat{\theta} - \theta)^2] + 2(\theta - \theta^
)E[\hat{\theta} - \theta] + (\theta - \theta^
)^2$
$= E[(\hat{\theta} - \theta)^2] + (\theta - \theta^*)^2$
$= V[\hat{\theta}] + bias^2(\hat{\theta})$
即:
$MSE = variance + bias^2$
这意味着,如果使用有偏估计器能使方差的减少量超过偏差平方的增加量,那么使用有偏估计器可能是明智的。
以下是一些偏差 - 方差权衡的例子:
-
高斯方差的无偏估计器
:高斯方差的最大似然估计器的方差为 $V[\sigma_{mle}^2] = \frac{2(N - 1)}{N^2} \sigma^4$,无偏估计器的方差为 $V[\sigma_{unb}^2] = \frac{2\sigma^4}{N - 1} = (\frac{N}{N - 1})^2 V[\sigma_{mle}^2]$。可见,无偏估计器的偏差低于最大似然估计器,但方差更高。
-
高斯均值的 MAP 估计器
:假设数据 $x_n \sim N(\theta^
= 1, \sigma^2)$,最大似然估计的偏差为 0,方差为 $V[\bar{x}|\theta^
] = \frac{\sigma^2}{N}$。而在高斯先验 $N(\theta_0, \sigma^2 / \kappa_0)$ 下的 MAP 估计为 $\tilde{x} = \frac{N}{N + \kappa_0} \bar{x} + \frac{\kappa_0}{N + \kappa_0} \theta_0 = w\bar{x} + (1 - w)\theta_0$,其偏差为 $E[\tilde{x}] - \theta^
= (1 - w)(\theta_0 - \theta^
)$,方差为 $V[\tilde{x}] = w^2 \frac{\sigma^2}{N}$。当 $\theta_0 = 0$ 且 $\theta^
= 1$ 时,MAP 估计有偏差,但方差较低。在某些情况下,MAP 估计的 MSE 低于最大似然估计。
-
线性回归的 MAP 估计器
*:岭回归是线性回归在高斯先验 $p(w) = N(w|0, \lambda^{-1}I)$ 下的 MAP 估计。当 $\lambda = 0$ 时为最大似然估计,$\lambda > 0$ 时为有偏估计。随着正则化强度 $\lambda$ 的增加,方差减小,但偏差增加。
3.5 分类中的偏差 - 方差权衡
如果使用 0 - 1 损失而非平方误差,频率风险不再能表示为偏差平方加方差。实际上,偏差和方差会以乘法方式组合。如果估计值在决策边界的正确一侧,偏差为负,减小方差会降低误分类率;但如果估计值在决策边界的错误一侧,偏差为正,增加方差可能有益。因此,偏差 - 方差权衡在分类中不太有用,更应关注预期损失,可通过交叉验证来近似预期损失。
4. 刀切法(Jacknife)
刀切法是一种基于数据重采样来估计估计器变异性的方法。与自助法不同,它不能用于近似完整的采样分布,但可以估计许多良好行为估计器的偏差和方差。
该方法通过每次留下一个数据点来计算 $N$ 个估计值,即 $\hat{\theta} n = \pi(D {-n})$,其中 $D_{-n}$ 是省略第 $n$ 个点的完整数据集。这些估计值的均值为 $\bar{\theta} = \frac{1}{N} \sum_{n=1}^{N} \hat{\theta}_n$。
可以使用以下公式估计偏差:
$\hat{bias}(\hat{\theta}) = (N - 1)(\bar{\theta} - \hat{\theta})$
进而得到偏差校正后的估计值:
$\hat{\theta}_{jack} = \hat{\theta} - \hat{bias}(\hat{\theta}) = N\hat{\theta} - (N - 1)\bar{\theta}$
方差估计公式为:
$V[\hat{\theta}] = \frac{N - 1}{N} \sum_{n=1}^{N} (\hat{\theta}_n - \bar{\theta})^2$
例如,当 $\pi(D) = \hat{\theta} = \bar{x}$ 为样本均值时,$\hat{\theta}
{-n} = \frac{N\bar{x} - x_n}{N - 1}$,$\bar{\theta} = \bar{x}$,标准误差可估计为:
$\hat{se}(\hat{\theta}) = [\frac{1}{N(N - 1)} \sum
{n=1}^{N} (x_n - \bar{x})^2]^{\frac{1}{2}}$
5. 频率决策理论
频率决策理论与贝叶斯决策理论类似,但没有关于未知自然状态的先验和后验分布。因此,不能将风险定义为后验预期损失。
5.1 计算估计器的风险
对于估计器 $\pi$ 和未知自然状态 $\theta$,频率风险定义为:
$R(\theta, \pi) \triangleq E_{p(x|\theta)} [\ell(\theta, \pi(x))]$
例如,在估计高斯均值的问题中,假设数据 $x_n \sim N(\theta^*, \sigma^2 = 1)$,使用二次损失 $\ell_2(\theta, \hat{\theta}) = (\theta - \hat{\theta})^2$,风险函数即为均方误差。考虑以下 5 种不同的估计器:
- $\pi_1(D) = \bar{x}$,样本均值
- $\pi_2(D) = median(D)$,样本中位数
- $\pi_3(D) = \theta_0$,固定值
- $\pi_{\kappa}(D)$,在 $N(\theta|\theta_0, \sigma^2 / \kappa)$ 先验下的后验均值:$\pi_{\kappa}(D) = \frac{N}{N + \kappa}\bar{x} + \frac{\kappa}{N + \kappa}\theta_0 = w\bar{x} + (1 - w)\theta_0$
对于每个估计器,其风险可根据均方误差分解为方差加偏差平方来计算:
- $\pi_1$ 是样本均值,无偏,风险为 $MSE(\pi_1|\theta^
) = V[\bar{x}] = \frac{\sigma^2}{N}$
- $\pi_2$ 是样本中位数,无偏,方差约为 $\frac{\pi}{2N}$,风险为 $MSE(\pi_2|\theta^
) = \frac{\pi}{2N}$
- $\pi_3$ 返回固定值 $\theta_0$,偏差为 $(\theta^
- \theta_0)$,方差为 0,风险为 $MSE(\pi_3|\theta^
) = (\theta^
- \theta_0)^2$
- $\pi_{\kappa}$ 的风险为 $MSE(\pi_{\kappa}|\theta^
) = \frac{1}{(N + \kappa)^2} (N\sigma^2 + \kappa^2(\theta_0 - \theta^*)^2)$
一般来说,最佳估计器取决于未知的 $\theta^ $ 值。如果 $\theta^ $ 非常接近 $\theta_0$,$\pi_3$ 最佳;如果 $\theta^ $ 在 $\theta_0$ 附近的合理范围内,后验均值最佳;如果 $\theta^ $ 远离 $\theta_0$,最大似然估计最佳。
5.2 贝叶斯风险
由于真实自然状态 $\theta$ 通常未知,无法直接计算上述风险。一种解决方案是假设 $\theta$ 的先验 $\rho$,然后进行平均,得到贝叶斯风险(也称为集成风险):
$R(\rho, \pi) \triangleq E_{\rho(\theta)} [R(\theta, \pi)] = \int d\theta dx \rho(\theta)p(x|\theta)\ell(\theta, \pi(x))$
使贝叶斯风险最小化的决策规则称为贝叶斯估计器,它等价于贝叶斯决策理论中推荐的最优策略。
综上所述,频率统计中的这些概念和方法在参数估计、模型评估和决策制定中起着重要作用,理解它们之间的关系和权衡对于实际应用至关重要。
以下是一个简单的 mermaid 流程图,展示了计算置信区间的主要步骤:
graph TD;
A[确定参数估计值 \hat{\theta} 和真实值 \theta^*] --> B[判断 \Delta = \hat{\theta} - \theta^* 分布是否已知];
B -- 已知 --> C[计算 \Delta 的 \alpha/2 和 1 - \alpha/2 分位数 \delta 和 \bar{\delta}];
C --> D[计算置信区间 I(\tilde{D}) = (\hat{\theta}(\tilde{D}) - \delta(\tilde{D}), \hat{\theta}(\tilde{D}) + \bar{\delta}(\tilde{D}))];
B -- 未知 --> E[判断是否适合高斯近似];
E -- 适合 --> F[使用 \hat{\theta} \pm z_{\alpha/2} \hat{se} 计算近似置信区间];
E -- 不适合 --> G[使用自助法近似];
下面是一个表格,总结了不同估计器的偏差和风险情况:
| 估计器 | 偏差 | 风险 |
| ---- | ---- | ---- |
| 样本均值 $\pi_1$ | 0 | $\frac{\sigma^2}{N}$ |
| 样本中位数 $\pi_2$ | 0 | $\frac{\pi}{2N}$ |
| 固定值 $\pi_3$ | $\theta^
- \theta_0$ | $(\theta^
- \theta_0)^2$ |
| 后验均值 $\pi_{\kappa}$ | $(1 - w)(\theta_0 - \theta^
)$ | $\frac{1}{(N + \kappa)^2} (N\sigma^2 + \kappa^2(\theta_0 - \theta^
)^2)$ |
频率统计中的关键概念与方法(续)
6. 不同估计器的性能对比与应用场景
在实际应用中,选择合适的估计器至关重要。我们已经了解了多种估计器的偏差、方差和风险等特性,下面进一步探讨它们在不同场景下的性能表现。
6.1 数据特征对估计器选择的影响
- 数据分布 :如果数据近似服从高斯分布,样本均值(MLE)通常是一个不错的选择,因为它是无偏的且在许多情况下具有较小的方差。例如,在测量物理量时,若测量误差服从高斯分布,使用样本均值估计总体均值是合理的。但如果数据存在异常值,样本中位数可能更稳健,因为它受极端值的影响较小。
- 样本大小 :当样本量较小时,有偏估计器可能更具优势。如在高斯方差估计中,虽然无偏估计器理论上更准确,但在小样本情况下,其方差较大。而 ML 估计器虽然有一定偏差,但方差相对较小,可能会使 MSE 更小。随着样本量的增加,无偏估计器的优势会逐渐显现,因为其方差会逐渐减小,且偏差对结果的影响也会相对变小。
6.2 实际应用案例分析
- 金融领域 :在股票收益率的估计中,由于股票市场的复杂性和不确定性,数据可能存在较大的波动和异常值。此时,使用样本中位数或结合先验信息的 MAP 估计器可能比简单的样本均值更合适。例如,在估计某只股票的长期平均收益率时,考虑到市场的周期性和突发事件的影响,使用带有适当先验的 MAP 估计器可以更好地平衡偏差和方差,提高估计的准确性。
- 医学研究 :在临床试验中,需要估计药物的疗效参数。如果样本量较小且数据分布不太明确,使用有偏但方差较小的估计器可能有助于更快地得出结论。例如,在初步的药物疗效评估中,使用带有一定正则化的线性回归模型(相当于 MAP 估计)可以避免过拟合,同时在一定程度上控制偏差。
7. 偏差 - 方差权衡的深入理解
偏差 - 方差权衡是频率统计中的一个核心概念,它贯穿于参数估计和模型选择的各个方面。以下从不同角度进一步探讨这一权衡关系。
7.1 模型复杂度与偏差 - 方差的关系
模型复杂度与偏差和方差密切相关。一般来说,简单模型具有较高的偏差和较低的方差,而复杂模型具有较低的偏差和较高的方差。例如,在多项式回归中,一次多项式模型过于简单,可能无法很好地拟合数据,导致较高的偏差;而高次多项式模型可能会过度拟合数据,使得方差增大。
为了更直观地理解这一关系,我们可以参考以下 mermaid 流程图:
graph TD;
A[模型复杂度低] --> B[高偏差];
A --> C[低方差];
D[模型复杂度高] --> E[低偏差];
D --> F[高方差];
B & C --> G[欠拟合];
E & F --> H[过拟合];
G & H --> I[选择合适复杂度的模型进行权衡];
7.2 如何在实践中进行权衡
在实际应用中,我们需要根据具体问题和数据特点来进行偏差 - 方差权衡。一种常用的方法是使用交叉验证,通过在不同的数据集上评估模型的性能,选择能使预期损失最小的模型复杂度。例如,在选择多项式回归的阶数时,可以使用 k - 折交叉验证,计算不同阶数下的平均误差,选择误差最小的阶数作为最终模型。
另一种方法是通过调整正则化参数。如在岭回归中,通过调整 $\lambda$ 的值来控制模型的偏差和方差。当 $\lambda$ 较大时,模型的方差减小,但偏差增大;当 $\lambda$ 较小时,偏差减小,但方差增大。我们可以通过实验找到一个合适的 $\lambda$ 值,使得 MSE 最小。
8. 频率决策理论的拓展与应用
频率决策理论在许多领域都有广泛的应用,除了前面提到的估计器风险计算和贝叶斯风险,还有一些拓展和应用值得关注。
8.1 多参数估计与决策
在实际问题中,往往需要同时估计多个参数。此时,频率决策理论可以推广到多参数的情况。例如,在多元线性回归中,需要同时估计多个回归系数。我们可以定义多参数估计器的风险函数,并根据不同的损失函数和先验信息来选择最优的估计器。
8.2 动态决策问题
在动态环境中,数据是随时间变化的,需要不断地进行决策。频率决策理论可以应用于动态决策问题,通过实时更新估计器和决策规则,以适应数据的变化。例如,在股票交易中,根据市场行情的实时变化,动态调整投资策略,使用频率决策理论来评估不同策略的风险和收益。
9. 总结与展望
频率统计中的自助法、置信区间、偏差和方差、刀切法以及频率决策理论等概念和方法,为我们进行参数估计、模型评估和决策制定提供了有力的工具。偏差 - 方差权衡是贯穿其中的核心思想,它提醒我们在实际应用中要综合考虑偏差和方差的影响,选择合适的估计器和模型。
未来,随着数据量的不断增加和问题的日益复杂,频率统计方法将面临新的挑战和机遇。一方面,需要进一步研究如何在大规模数据下高效地应用这些方法,例如如何加速自助法和刀切法的计算。另一方面,需要探索与其他统计方法(如贝叶斯统计)的结合,以充分发挥各自的优势,提高估计和决策的准确性。
以下是一个表格,总结了频率统计中关键概念的主要特点和应用场景:
| 概念 | 主要特点 | 应用场景 |
| ---- | ---- | ---- |
| 自助法 | 可近似后验分布,但计算可能较慢 | 估计参数的不确定性、评估模型性能 |
| 置信区间 | 基于采样分布估计参数的不确定性 | 给出参数估计的可信范围 |
| 偏差和方差 | 衡量估计器的准确性和稳定性 | 选择合适的估计器、进行模型选择 |
| 刀切法 | 可估计估计器的偏差和方差 | 小样本情况下的参数估计 |
| 频率决策理论 | 考虑估计器的风险和贝叶斯风险 | 决策制定、模型评估 |
通过深入理解和应用这些频率统计方法,我们可以更好地处理实际问题中的不确定性,做出更合理的决策。
graph LR;
A[数据] --> B[选择估计器];
B --> C[计算偏差和方差];
C --> D[进行偏差 - 方差权衡];
D --> E[选择合适模型];
E --> F[应用频率决策理论进行决策];
F --> G[评估结果];
G --> A[根据结果调整数据或方法];
这个 mermaid 流程图展示了一个完整的频率统计应用流程,从数据开始,经过估计器选择、偏差 - 方差权衡、模型选择和决策制定,最后对结果进行评估,并根据评估结果进行调整,形成一个闭环的优化过程。
超级会员免费看
1万+

被折叠的 条评论
为什么被折叠?



