频率主义决策理论与经验风险最小化
1. 频率主义决策理论基础概念
在频率主义统计中,有几个重要的决策理论概念。
-
极大极小估计量(Minimax Estimator)
:最大风险被定义为 $R_{max}(\pi) \triangleq \sup_{\theta} R(\theta, \pi)$。一个能最小化最大风险的决策规则被称为极大极小估计量,记为 $\pi_{MM}$。例如,在某些风险函数图中,若 $\pi_1$ 在所有可能的 $\theta$ 值下,其最坏情况风险低于 $\pi_2$,那么 $\pi_1$ 就是极大极小估计量。不过,极大极小估计量计算困难且过于保守,在大多数统计情况(除博弈论情况外),假设自然是对手并不合理。
-
一致估计量(Consistent Estimator)
:假设有数据集 $D = {x_n : n = 1 : N}$,样本 $x_n \in X$ 由分布 $p(x|\theta^
)$ 生成,其中 $\theta^
\in \Theta$ 是真实参数,且参数是可识别的(即对于任何数据集 $D$,$p(D|\theta) = p(D|\theta’)$ 当且仅当 $\theta = \theta’$)。若估计量 $\pi : X^N \to \Theta$ 满足 $\hat{\theta}(D) \to \theta^
$(当 $N \to \infty$,箭头表示依概率收敛),则称 $\pi$ 是一致估计量。最大似然估计量(MLE)就是一致估计量的一个例子。但要注意,一个估计量可以是无偏的但不一致,比如 $\pi({x_1, \ldots, x_N}) = x_N$ 是均值的无偏估计量,但它的抽样分布不收敛到一个固定值,所以不能收敛到 $\theta^
$。在实践中,由于大多数真实数据集并非来自所选的模型族,一致性的实用性有限,更有用的是找到能最小化经验分布 $p_D(x|D)$ 和估计分布 $p(x|\hat{\theta})$ 之间差异度量的估计量,若使用 KL 散度作为差异度量,估计量就变成了 MLE。
-
可容许估计量(Admissible Estimator)
:若对于所有的 $\theta$,有 $R(\theta, \pi_1) \leq R(\theta, \pi_2)$,则称 $\pi_1$ 支配 $\pi_2$;若对于某些 $\theta^*$ 不等式严格成立,则称支配是严格的。一个估计量若不被任何其他估计量严格支配,则称其为可容许估计量。例如,在高斯似然模型下,样本均值支配样本中位数,所以样本中位数不是均值的可容许估计量。但如果真实模型是重尾分布(如拉普拉斯分布、学生分布或高斯混合分布),样本中位数可能具有更低的风险。令人惊讶的是,即使在平方误差损失的高斯似然模型下,样本均值也不总是可容许估计量。所有可容许的频率主义决策规则都是相对于某个(可能是不合适的)先验分布的贝叶斯决策规则,但可容许性的概念实用性有限,因为很容易构造出可容许但不合理的估计量。
2. 斯坦悖论(Stein’s Paradox)
假设有 $K$ 个随机变量 $X_k \sim N(\theta_k, \sigma^2)$,并观察到一个单一样本,似然模型为 $p(x|\theta) = N(x|\theta, \sigma^2I)$,使用平方损失,风险就是均方误差(MSE)。通常会使用样本均值 $\hat{\theta} = x$ 作为估计量,但当 $K \geq 3$ 时,样本均值是不可容许的,这就是斯坦悖论。
-
证明思路
:为了证明这一点,需要构造一个风险更低的估计量。詹姆斯 - 斯坦估计量(James - Stein Estimator)定义为 $\hat{\theta}
0^{JS} = \left(1 - \frac{K\sigma^2}{|x|^2}\right) x$。当 $K \geq 3$ 时,该估计量的风险低于样本均值。直观上,假设 $\sigma^2 = 1$,有 $E[|x|_2^2] = K + |\theta|_2^2$,这意味着真实的 $\theta$ 很可能在球体 ${\theta : |\theta|_2 \leq |x|_2 - K}$ 内,而通常的估计量 $x$ 几乎肯定在这个球体外,所以应该将估计值收缩一个因子 $( |x|_2 - K)/|x^2| = 1 - K/|x|_2$。不过,收缩因子可能为负,因此有更好的估计量 $\hat{\theta}
+^{JS} = \left(1 - \frac{K\sigma^2}{|x|^2}\right)
+ x$,即截断或正部分 JS 估计量,对于某些 $\theta$ 值,它的风险低于原始的 JS 估计量,这表明原始估计量是不可容许的。
-
与经验贝叶斯的联系
:可以使用经验贝叶斯方法推导出上述结果。考虑高斯先验 $p(\theta) = N(\mu, \tau^2I)$ 和似然 $p(x|\theta) = N(x|\theta, \sigma^2I)$,后验均值为 $\hat{\theta} = \lambda\mu + (1 - \lambda)x = \mu + (1 - \lambda)(x - \mu)$,其中 $\lambda = \sigma^2/(\sigma^2 + \tau^2)$。假设 $\sigma^2 = 1$ 且 $\mu = 0$,则 $\hat{\theta} = (1 - \lambda)x$,通过一些计算可得 $\hat{\theta}
{EB} = \left(1 - \frac{K}{|x|^2}\right) x$,与 $\sigma^2 = 1$ 时的截断 JS 估计量匹配。
-
为何称为“悖论”
:如果将 $\mu$ 设置为所有观测值的平均值 $x_1$,即使观测值不相关,这个估计量的风险也低于样本均值。例如,要估计光速、台湾的茶叶消费量、蒙大拿州的猪重量和温哥华的降雨量,这些量的平均值本身没有太大意义,但使用收缩估计量可以降低 MSE。然而,对于某个特定的分量(如光速),其估计值可能在某些参数值下改善,而在其他参数值下恶化。
3. 经验风险最小化(Empirical Risk Minimization)
在监督学习中,将频率主义决策理论应用于其中。
-
经验风险
:在标准的频率主义决策理论中,有一个未知的“自然状态”对应于模型的未知参数 $\theta^
$,风险定义为 $R(\pi, \theta^
) = E_{p(D|\theta^
)} [\ell(\theta^
, \pi(D))]$。在监督学习中,对于每个输入 $x$ 有不同的未知自然状态(即输出 $y$),估计量 $\pi$ 是预测函数 $\hat{y} = f(x)$,自然状态是真实分布 $p^
(x, y)$,风险为 $R(f, p^
) = R(f) \triangleq E_{p^
(x)p^
(y|x)} [\ell(y, f(x)]$,这称为总体风险。由于 $p^
$ 未知,可以使用经验分布 $p_D(x, y|D) \triangleq \frac{1}{|D|} \sum_{(x_n,y_n) \in D} \delta(x - x_n)\delta(y - y_n)$ 来近似,得到经验风险 $R(f, D) \triangleq E_{p_D(x,y)} [\ell(y, f(x)] = \frac{1}{N} \sum_{n = 1}^{N} \ell(y_n, f(x_n))$。选择预测器的一种自然方法是经验风险最小化(ERM),即 $\hat{f}
{ERM} = \arg\min
{f \in H} R(f, D) = \arg\min_{f \in H} \frac{1}{N} \sum_{n = 1}^{N} \ell(y_n, f(x_n))$,其中 $H$ 是特定的函数假设空间。
-
近似误差与估计误差
:使用 ERM 原则拟合的函数的风险可以分解为两部分。设 $f^{
} = \arg\min_f R(f)$ 是实现最小总体风险的函数(在所有可能的函数上优化),$f^
= \arg\min_{f \in H} R(f)$ 是假设空间 $H$ 中的最佳函数,$f_N^
= \arg\min_{f \in H} R(f, D)$ 是最小化经验风险的预测函数。则有 $E_{p^
}[R(f_N^
) - R(f^{
})] = R(f^
) - R(f^{
}) \underbrace{\vphantom{R(f^*) - R(f^{
})}}
{E
{app}(H)} + E_{p^
}[R(f_N^
) - R(f^
)] \underbrace{\vphantom{R(f_N^
) - R(f^
)}}
{E
{est}(H,N)}$。第一项 $E_{app}(H)$ 是近似误差,衡量 $H$ 能多接近真实最优函数 $f^{
}$;第二项 $E_{est}(H, N)$ 是估计误差或泛化误差,可近似为训练集误差和测试集误差的差异,这个差异通常称为泛化差距。可以通过使用更具表达能力的函数族 $H$ 来减小近似误差,但通常会由于过拟合而增加泛化误差。
-
正则化风险
*:为了避免过拟合,通常会在目标函数中添加复杂度惩罚项,得到正则化经验风险 $R_{\lambda}(f, D) = R(f, D) + \lambda C(f)$,其中 $C(f)$ 衡量预测函数 $f(x; \theta)$ 的复杂度,$\lambda \geq 0$ 是超参数,控制复杂度惩罚的强度。在实践中,通常对参数本身应用正则化器,得到 $R_{\lambda}(\theta, D) = R(\theta, D) + \lambda C(\theta)$。如果损失函数是对数损失,正则化器是负对数先验,正则化风险为 $R_{\lambda}(\theta, D) = -\frac{1}{N} \sum_{n = 1}^{N} \log p(y_n|x_n, \theta) - \lambda \log p(\theta)$,最小化这个风险等价于最大后验(MAP)估计。
下面用 mermaid 流程图展示经验风险最小化的流程:
graph TD;
A[获取数据集 D] --> B[定义假设空间 H];
B --> C[计算经验风险 R(f, D)];
C --> D[在 H 中最小化 R(f, D) 得到 f_N^*];
D --> E[评估泛化误差];
4. 结构风险与估计方法
- 结构风险最小化(Structural Risk Minimization) :一种自然的估计超参数的方法是最小化可达到的最低经验风险 $\hat{\lambda} = \arg\min_{\lambda} \min_{\theta} R_{\lambda}(\theta, D)$,但这种方法会选择最小的正则化量(即 $\hat{\lambda} = 0$),因为经验风险低估了总体风险,导致选择 $\lambda$ 时过拟合,这被称为训练误差的乐观性。如果知道正则化总体风险 $R_{\lambda}(\theta)$,就可以用它来选择合适复杂度的模型,这就是结构风险最小化。
- 交叉验证(Cross - Validation) :为了估计监督学习中的总体风险,可以将数据集划分为训练集和验证集。对于每个模型 $\lambda$,在训练集上拟合得到 $\hat{\theta} {\lambda}(D {train})$,然后使用验证集上的无正则化经验风险作为总体风险的估计,即验证风险 $R_{val}^{\lambda} \triangleq R_0(\hat{\theta} {\lambda}(D {train}), D_{valid})$。但当训练样本数量较小时,这种方法会有问题。交叉验证是一种简单而流行的解决方案,将训练数据分成 $K$ 折,对于每一折 $k \in {1, \ldots, K}$,在除第 $k$ 折外的所有折上训练,在第 $k$ 折上测试,交叉验证风险定义为 $R_{cv}^{\lambda} \triangleq \frac{1}{K} \sum_{k = 1}^{K} R_0(\hat{\theta} {\lambda}(D {-k}), D_k)$。可以使用 CV 估计作为优化例程中的目标来选择最优超参数 $\hat{\lambda} = \arg\min_{\lambda} R_{cv}^{\lambda}$,最后结合所有可用数据重新估计模型参数 $\hat{\theta} = \arg\min_{\theta} R_{\hat{\lambda}}(\theta, D)$。
- 统计学习理论(Statistical Learning Theory) :交叉验证的主要问题是速度慢,因为需要多次拟合模型。统计学习理论的目标是在一定概率下对泛化误差进行上界估计。如果满足这个界,就可以确信通过最小化经验风险选择的假设具有低总体风险。在二分类器的情况下,如果假设类是 PAC 可学习的(Probably Approximately Correct),则意味着假设会做出正确的预测。当假设空间是有限的,大小为 $\dim(H) = |H|$ 时,可以证明对于任何数据分布 $p^*$ 和大小为 $N$ 的数据集 $D$,泛化误差在最坏情况下超过 $\epsilon$ 的概率上界为 $P\left(\max_{h \in H} |R(h) - R(h, D)| > \epsilon\right) \leq 2 \dim(H) e^{-2N\epsilon^2}$。
下面用表格总结不同估计量和方法的特点:
| 概念 | 特点 |
| ---- | ---- |
| 极大极小估计量 | 计算困难,过于保守 |
| 一致估计量 | 理论上能在无限数据下恢复真实参数,但实践中实用性有限 |
| 可容许估计量 | 不被其他估计量严格支配,但容易构造不合理的可容许估计量 |
| 经验风险最小化 | 简单直观,但可能导致过拟合 |
| 交叉验证 | 能较好估计总体风险,但训练样本少时效果不佳 |
| 统计学习理论 | 可对泛化误差上界估计,但假设空间有限时适用 |
频率主义决策理论与经验风险最小化
5. 交叉验证的详细流程与应用
交叉验证是一种重要的估计总体风险的方法,其详细流程如下:
1.
数据划分
:将数据集 $D$ 划分为 $K$ 个互不相交的子集,即 $D = D_1 \cup D_2 \cup \cdots \cup D_K$,且 $D_i \cap D_j = \varnothing$($i \neq j$)。
2.
循环训练与验证
:
- 对于 $k = 1, 2, \cdots, K$:
- 选择 $D_{-k} = D - D_k$ 作为训练集,$D_k$ 作为验证集。
- 在训练集 $D_{-k}$ 上拟合模型,得到参数估计 $\hat{\theta}
{\lambda}(D
{-k})$。
- 计算验证集 $D_k$ 上的无正则化经验风险 $R_0(\hat{\theta}
{\lambda}(D
{-k}), D_k)$。
3.
计算交叉验证风险
:将 $K$ 次验证的风险求平均,得到交叉验证风险 $R_{cv}^{\lambda} = \frac{1}{K} \sum_{k = 1}^{K} R_0(\hat{\theta}
{\lambda}(D
{-k}), D_k)$。
4.
选择最优超参数
:通过最小化交叉验证风险来选择最优超参数 $\hat{\lambda} = \arg\min_{\lambda} R_{cv}^{\lambda}$。
5.
最终模型训练
:使用所有数据 $D$ 和最优超参数 $\hat{\lambda}$ 重新训练模型,得到最终的参数估计 $\hat{\theta} = \arg\min_{\theta} R_{\hat{\lambda}}(\theta, D)$。
下面用 mermaid 流程图展示交叉验证的流程:
graph TD;
A[获取数据集 D] --> B[划分成 K 折];
B --> C[循环 K 次];
C --> D[选择 D - D_k 为训练集,D_k 为验证集];
D --> E[在训练集上拟合模型得到 \hat{\theta}_{\lambda}(D_{-k})];
E --> F[计算验证集上的无正则化经验风险 R_0(\hat{\theta}_{\lambda}(D_{-k}), D_k)];
F --> G[计算交叉验证风险 R_{cv}^{\lambda}];
G --> H[选择最优超参数 \hat{\lambda}];
H --> I[使用所有数据和 \hat{\lambda} 重新训练模型得到 \hat{\theta}];
交叉验证在实际应用中非常广泛,例如在选择不同复杂度的模型(如不同阶数的多项式回归模型)、调整超参数(如神经网络中的学习率、正则化系数等)时都能发挥重要作用。
6. 统计学习理论的深入理解
统计学习理论主要关注对泛化误差的上界估计,以确保通过最小化经验风险选择的假设具有低总体风险。下面深入探讨其相关内容。
-
Hoeffding 不等式与联合界的应用
:在证明假设类是 PAC 可学习的过程中,用到了 Hoeffding 不等式和联合界。Hoeffding 不等式指出,如果 $X_1, \cdots, X_N \sim Ber(\theta)$,那么对于任何 $\epsilon > 0$,有 $P(|x - \theta| > \epsilon) \leq 2e^{-2N\epsilon^2}$,其中 $x = \frac{1}{N} \sum_{i = 1}^{N} x_i$。联合界则表示如果 $A_1, \cdots, A_d$ 是一组事件,那么 $P(\cup_{i = 1}^{d} A_i) \leq \sum_{i = 1}^{d} P(A_i)$。通过这两个不等式,我们可以证明当假设空间是有限的,大小为 $\dim(H) = |H|$ 时,泛化误差在最坏情况下超过 $\epsilon$ 的概率上界为 $P\left(\max_{h \in H} |R(h) - R(h, D)| > \epsilon\right) \leq 2 \dim(H) e^{-2N\epsilon^2}$。
-
PAC 可学习性的意义
:如果一个假设类是 PAC 可学习的,意味着在一定概率下,通过最小化经验风险选择的假设能够以较高的准确率进行预测。这为我们在实际应用中选择合适的模型提供了理论依据。例如,在二分类问题中,如果一个假设类是 PAC 可学习的,那么我们可以相信通过经验风险最小化选择的分类器在未来的数据上也能有较好的表现。
7. 不同方法的对比与选择
在实际应用中,需要根据具体情况选择合适的估计量和方法。下面通过表格对比不同方法的优缺点:
| 方法 | 优点 | 缺点 | 适用场景 |
| ---- | ---- | ---- | ---- |
| 极大极小估计量 | 考虑最坏情况,具有一定的稳健性 | 计算困难,过于保守 | 对风险有严格要求,且能承受计算成本的场景 |
| 一致估计量 | 理论上能在无限数据下恢复真实参数 | 实践中大多数数据集不满足假设,实用性有限 | 数据量非常大且模型假设合理的场景 |
| 可容许估计量 | 不被其他估计量严格支配 | 容易构造不合理的可容许估计量 | 对估计量的支配性有要求的场景 |
| 经验风险最小化 | 简单直观,易于实现 | 可能导致过拟合 | 数据量充足且模型复杂度较低的场景 |
| 交叉验证 | 能较好估计总体风险,可选择最优超参数 | 训练样本少时效果不佳,计算成本高 | 模型选择和超参数调整,数据量适中的场景 |
| 统计学习理论 | 可对泛化误差上界估计,提供理论保证 | 假设空间有限时适用 | 对模型的泛化性能有理论要求,假设空间较小的场景 |
在选择方法时,可以参考以下决策树:
graph TD;
A[数据量大小] --> B{数据量小};
B -->|是| C[考虑其他方法,避免交叉验证] --> D{对风险要求高};
D -->|是| E[考虑极大极小估计量] --> F[结束];
D -->|否| G[考虑可容许估计量或其他简单方法] --> F;
B -->|否| H{模型复杂度高};
H -->|是| I[使用交叉验证调整超参数] --> F;
H -->|否| J{对泛化性能有理论要求};
J -->|是| K[使用统计学习理论] --> F;
J -->|否| L[使用经验风险最小化] --> F;
8. 总结与展望
频率主义决策理论中的各种估计量和方法在统计学和机器学习中都有重要的应用。极大极小估计量、一致估计量和可容许估计量从不同角度对参数估计进行了优化,而经验风险最小化、交叉验证和统计学习理论则为模型选择和超参数调整提供了有效的手段。
在实际应用中,需要根据数据量、模型复杂度、对风险和泛化性能的要求等因素综合选择合适的方法。未来,随着数据量的不断增加和模型复杂度的不断提高,如何更高效地应用这些方法,以及如何开发新的估计量和方法,将是值得研究的方向。例如,在处理大规模数据集时,如何优化交叉验证的计算效率;在复杂的深度学习模型中,如何利用统计学习理论更好地控制泛化误差等。
超级会员免费看
2337

被折叠的 条评论
为什么被折叠?



