机器学习中的PAC学习模型及扩展
1. 温和的开端
在学习过程中,经验风险最小化(ERM)规则在某些情况下可能会导致过拟合。每个大圆圈中的点代表一个可能的实例元组,每个彩色椭圆代表某个“不良”预测器的“误导性”实例元组集合。当ERM规则得到一个误导性的训练集时,就可能发生过拟合。
对于有限假设类,当样本量 $m$ 足够大时,在独立同分布(i.i.d.)样本的选择上,至少有 $1 - \delta$ 的概率,对于每个ERM假设 $h_S$,有 $L_{(D, f)}(h_S) \leq \epsilon$。这意味着,对于足够大的 $m$,在有限假设类上应用ERM规则可能(置信度为 $1 - \delta$)近似(误差不超过 $\epsilon$)正确。
1.1 练习题
- 多项式匹配的过拟合 :证明对于给定的训练集 $S = {(x_i, f(x_i))}_{i=1}^{m} \subseteq (R^d \times {0, 1})^m$,存在一个多项式 $p_S$,使得 $h_S(x) = 1$ 当且仅当 $p_S(x) \geq 0$,其中 $h_S$ 如式(2.3)所定义。这表明使用ERM规则学习所有阈值多项式类可能会导致过拟合。
- 期望损失的计算 :设 $H$ 是一个在域 $X$ 上的二元分类器类,$D$ 是 $X$ 上的未知分布,$f$ 是 $H$ 中的目标假设。固定某个 $h \in H$,证明 $L_S(h)$ 在 $S|x$ 选择上的期望值等于 $L_{(D, f)}(h)$,即 $E_{S|x \sim D^m} [L_S(h)]
超级会员免费看
订阅专栏 解锁全文
30

被折叠的 条评论
为什么被折叠?



