机器学习中的泛化边界与覆盖数
在机器学习领域,泛化能力是衡量模型性能的关键指标之一。本文将深入探讨线性预测器的泛化边界以及覆盖数的相关概念,这些内容对于理解模型的复杂度和性能具有重要意义。
线性预测器的泛化边界
在研究线性预测器时,我们常常需要考虑其泛化能力,即模型在未见过的数据上的表现。这里我们将分别讨论具有低 $\ell_2$ 范数约束和低 $\ell_1$ 范数约束的线性预测器的泛化边界。
低 $\ell_2$ 范数约束的线性预测器
设 $B = |w^\star|_2$,考虑集合 $H = {w : |w|_2 \leq B}$。根据硬支持向量机(hard - SVM)的定义和分布假设,$w_S \in H$ 的概率为 1,且 $L_S(w_S) = 0$。利用相关定理,我们可以得到:
$L_D(w_S) \leq L_S(w_S) + 2B R \sqrt{m} + \sqrt{\frac{2\ln(2/\delta)}{m}}$
定理 26.13 表明,硬支持向量机的样本复杂度与 $\frac{R^2 |w^\star|_2}{\epsilon^2}$ 成正比。通过更精细的分析和可分性假设,这个边界可以改进到 $\frac{R^2 |w^\star|_2}{\epsilon}$ 的阶。
前面定理中的边界依赖于未知的 $|w^\star|$。接下来,我们推导出一个依赖于支持向量机输出范数的边界,这样就可以从训练集本身计算该边界。
定理 26.14:假设定理 26.13 的条件成立。那么,在 $S \sim D^m$ 的选择上,至少有 $1 - \delta$ 的概率,我们有:
超级会员免费看
订阅专栏 解锁全文
2410

被折叠的 条评论
为什么被折叠?



