学习理论中的不同可学习性概念及相关原理
1. 非均匀可学习性的无免费午餐定理
对于非均匀可学习性,存在一个重要的结论:任何有限 VC 维类的可数并集是非均匀可学习的。然而,对于任何无限域集 $X$,$X$ 上所有二元值函数的类并不是有限 VC 维类的可数并集。这意味着在某种意义上,无免费午餐定理对于非均匀学习同样成立,即当域不是有限时,对于所有确定性二元分类器的类,不存在非均匀学习器。不过,对于每个这样的分类器,存在一个简单的算法(即仅包含该分类器的假设类的经验风险最小化算法)来学习它。
将定理中给出的非均匀可学习性结果与单独对任何特定 $H_n$ 进行不可知 PAC 学习的任务进行比较是很有趣的。非均匀学习器对于 $H$ 的先验知识或偏差较弱,它在整个类 $H$ 中搜索模型,而不是专注于一个特定的 $H_n$。这种先验知识弱化的代价是,为了与 $H_n$ 中的任何特定 $h$ 竞争,所需的样本复杂度增加。
具体来说,假设对于所有 $n$,$VCdim(H_n) = n$,通过简单计算可得:
$m_{NUL}^H(\epsilon,\delta,h) - m_{UC}^{H_n}(\epsilon/2,\delta) \leq \frac{4C \cdot 2\log(2n)}{\epsilon^2}$
这表明,将学习器的先验知识从包含目标 $h$ 的特定 $H_n$ 放宽到可数并集的代价,取决于 $h$ 所在的第一个类的索引的对数。这个代价随着类的索引增加而增加,这反映了知道 $H$ 中假设的良好优先级顺序的价值。
2. 最小描述长度与奥卡姆剃刀原理
2.1 最小描述长度学习范式
设 $H$
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



