多类学习与压缩边界:理论与实践
1. 多类学习的可学习性
在多类分类问题中,目标是学习一个预测器 $h : X \to [k]$。我们主要关注多类预测器在 0 - 1 损失下的 PAC 可学习性,具体目标有两个:
- 刻画哪些多类假设类在多类 PAC 模型中是可学习的。
- 量化这些假设类的样本复杂度。
1.1 Natarajan 维度
Natarajan 维度是 VC 维度向多类预测器类的推广。为了定义 Natarajan 维度,我们先推广了打散(shattering)的定义。
1.1.1 打散(多类版本)
如果存在两个函数 $f_0, f_1 : C \to [k]$ 满足:
- 对于每个 $x \in C$,$f_0(x) \neq f_1(x)$。
- 对于每个 $B \subset C$,存在一个函数 $h \in H$ 使得 $\forall x \in B, h(x) = f_0(x)$ 且 $\forall x \in C \setminus B, h(x) = f_1(x)$,则称集合 $C \subset X$ 被 $H$ 打散。
1.1.2 Natarajan 维度
$H$ 的 Natarajan 维度,记为 $Ndim(H)$,是被打散集合 $C \subset X$ 的最大大小。当恰好有两个类时,$Ndim(H) = VCdim(H)$,所以 Natarajan 维度推广了 VC 维度。
1.2 多类基本定理
存在绝对常数 $C_1, C_2 > 0$,对于每个从 $X$ 到
超级会员免费看
订阅专栏 解锁全文
2007

被折叠的 条评论
为什么被折叠?



