提升算法研究基础:从理论到实践的全面解析
1. 现有边界的局限性
在机器学习中,我们常常会用到各种边界来评估模型的性能。然而,这些边界往往过于宽松,难以在实际学习问题中进行定量应用。在大多数情况下,这些边界表明,以现有的训练数据量,只能使用非常简单的假设类。但在实际应用中,我们经常使用相当大的假设类,并且能取得不错的效果。
问题在于这些边界过于悲观,它们适用于所有分布,包括那些让学习变得极其困难的“最坏情况”分布。虽然边界的一致性为结果带来了普遍性和鲁棒性,但这种一致性也可能成为一个弱点,因为结果可能更能刻画理论上的最坏情况,而非实际遇到的情况。
为了收紧这些边界,一种方法是考虑训练集上可测量的其他量。上述定理中的边界类型仅考虑了训练误差,但我们还可以考虑其他因素。例如,某些边界依赖于训练集的间隔分布特性。
2. 机器学习的理想化框架
为了对机器学习进行数学研究,并为提升算法的开发和分析提供基础,我们引入一个理想化的框架,该框架能对性能提供绝对保证。
2.1 性能的绝对保证
之前的分析模式非常通用且不依赖特定假设,即我们没有对生成标记示例的分布形式做任何假设。这种通用性使得结果能在广泛的场景中应用,无需对数据分布进行先验假设。但也正因为如此,我们无法提供性能的绝对保证。
这些边界告诉我们,如果在训练过程中能在足够大的训练集上找到一个训练误差低的简单假设,那么泛化误差将会很小。但它们并没有告诉我们何时能获得一个具有高泛化准确率(如 99%)的假设,这只能在观察到训练误差后才能推断。
即使训练集变得非常大,这些边界也不能保证低泛化误差。因为分布可能使得标签本
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



