63、机器学习中的泛化边界：原理与应用

最新推荐文章于 2025-11-14 23:48:08 发布

原创最新推荐文章于 2025-11-14 23:48:08 发布 · 36 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#泛化边界 #VC维度 #Rademacher平均值

机器学习与数据挖掘精解专栏收录该内容

100 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习中的泛化边界：原理与应用

1. 泛化与假设的基本概念

在机器学习领域，假设（hypothesis）是一个核心概念。假设 $h$ 是一个将实例映射为真或假的谓词。若 $h(x)$ 为真，则表示 $x$ 被假设属于正在学习的目标概念。假设之间存在一般性的比较关系，假设 $h_1$ 比 $h_2$ 更一般或相等，意味着 $h_1$ 至少覆盖与 $h_2$ 相同数量的示例，即 $h_1 \geq h_2$ 当且仅当 $(\forall x)[h_1(x) \rightarrow h_2(x)]$。若 $h_1 \geq h_2$ 且 $h_2 \ngeq h_1$，则 $h_1$ 严格比 $h_2$ 更一般。这种一般性排序与包含关系密切相关。

2. 泛化边界的定义与动机

2.1 泛化边界的定义

在统计机器学习理论中，泛化边界（generalization bound），更准确地说是泛化误差边界，是关于学习算法或一类算法预测性能的陈述。学习算法将有限的带标签实例训练样本作为输入，输出关于所有实例标签的假设，包括可能未出现在训练样本中的实例。假设带标签实例从某个固定分布中抽取，假设的质量可以用其风险（risk）来衡量，即与分布的不兼容性。学习算法的性能可以通过随机生成训练样本时其假设的期望风险来表示。泛化边界是一个定理，对于任何分布都成立，它表明在高概率下，将学习算法应用于随机抽取的样本将得到一个风险不大于某个值的假设。这个边界值通常取决于训练样本的大小、假设在训练样本上的风险的经验评估以及学习算法可以输出的预测器类的“丰富度”或“容量”。