提升回归器的策略探索
1. 引言
在分类任务中,提升弱学习器性能的想法促使了通用算法的诞生,Adaboost算法进一步优化了这一方法,通过为单个弱学习器的性能分配权重,形成加权组合。这种改进分类算法性能的方法被广泛应用于先进的学习系统,并受到了统计界的关注。
然而,将类似策略应用于回归问题的早期尝试并不理想。一些方法如将回归问题转化为分类问题,或是设计特定的损失函数和权重更新方式,但都存在实现开销大、权重变化剧烈、依赖最大误差等缺点,未能重现分类任务中的显著提升效果。直到Friedman在最近的论文中从数值优化的角度为回归问题开发了一套提升算法。
本文的研究动机源于三个方面:
- 基于分类器边际分析的最新结果,为弱学习器的训练示例分布和目标值确定提供新的标准。
- 将提升回归问题视为一个优化问题。
- 为控制弱学习器的复杂度,扩展了Dunkin等人的增量学习神经网络算法。
2. 背景知识
我们的新算法主要基于定理13.3,该定理限制了回归函数在随机生成的测试示例上产生大于 $\theta$ 误差的概率。提升算法的目标是最小化这个误差界限。
为了给出定理,我们需要回顾 $\gamma$-shattering 的概念。早期,Shawe-Taylor等人得到了有限维空间中有界线性函数的胖粉碎维度的第一个界限,Gurvits将其推广到无限维Banach空间。我们引用了Bartlett和Shawe-Taylor在Hilbert空间中改进后的界限:
定理13.1(Bartlett和Shawe-Taylor [1999]) :考虑一个Hilbe
超级会员免费看
订阅专栏 解锁全文
1702

被折叠的 条评论
为什么被折叠?



