Rademacher复杂度:机器学习泛化界的关键指标
1. 引言
在机器学习中,可学习性与一致收敛性密切相关。Rademacher复杂度作为衡量一致收敛速率的重要指标,为我们提供了一种评估模型泛化能力的有效方法。本文将深入探讨Rademacher复杂度的概念、性质及其在不同场景下的应用。
2. Rademacher复杂度的定义
2.1 ϵ - 代表性样本
首先,我们回顾一下 ϵ - 代表性样本的定义。对于一个训练集 $S$,如果满足 $\sup_{h\in H}|L_D(h) - L_S(h)| \leq \epsilon$,则称 $S$ 是 ϵ - 代表性的(相对于定义域 $Z$、假设类 $H$、损失函数 $\ell$ 和分布 $D$)。这里,$L_D(h)$ 表示假设 $h$ 在分布 $D$ 上的真实误差,$L_S(h)$ 表示 $h$ 在训练集 $S$ 上的经验误差。
2.2 代表性的定义
为了简化符号,我们定义 $F = \ell \circ H = {z \mapsto \ell(h, z) : h \in H}$。对于 $f \in F$,$L_D(f) = E_{z\sim D}[f(z)]$,$L_S(f) = \frac{1}{m} \sum_{i=1}^{m} f(z_i)$。训练集 $S$ 相对于 $F$ 的代表性定义为:
$Rep_D(F, S) = \sup_{f\in F} (L_D(f) - L_S(f))$
2.3 Rademacher复杂度的引入
为了估计 $S$ 的代表性,我们可以将 $S$ 拆分为两个不相交的集合 $S
超级会员免费看
订阅专栏 解锁全文
5311

被折叠的 条评论
为什么被折叠?



