鲁棒集成学习:AdaBoost 及相关算法的优化与应用
1. 引言
集成学习方法,尤其是 AdaBoost,在众多分类任务中取得了显著的成功,似乎克服了过拟合问题。AdaBoost 通过对误差函数进行梯度下降,渐近地关注那些最难学习的模式。然而,在处理有噪声的问题时,这种方法可能会产生不利影响。理论分析表明,边际分布(而非仅仅最小边际)在理解这一现象中起着关键作用。在某些情况下,容忍一些离群点可能会显著增加其余点的边际,从而提高整体性能。
为了解决这个问题,我们提出了新的提升算法,类似于 ν - 支持向量分类,允许预先指定比例 ν 的点位于边际区域甚至决策边界的错误一侧。与其他正则化提升算法不同,这种方法提供了一种易于解释的方式来控制最小化训练误差和模型容量之间的权衡。
2. AdaBoost 与线性规划解决方案
在推导新算法之前,我们先简要讨论标准 AdaBoost 和 Arc - GV 生成的解决方案的性质,并探讨它们与基于基础假设类 G 的线性规划(LP)解决方案的关系。
设 ${g_t(x) : t = 1, \ldots, T}$ 是一系列假设,$\alpha = [\alpha_1 \ldots \alpha_T]$ 是它们的权重,且 $\alpha_t \geq 0$。假设 $g_t$ 是假设类 $G = {g : x \mapsto {\pm1}}$ 的元素,由基础学习算法 L 定义。集成模型通过 $sgn (f(x))$ 生成标签,其中:
[f(x) = \sum_{t} \frac{\alpha_t}{|\alpha|_1} g_t(x)]
为了表达 $f$ 和边际 $\rho$ 对 $
超级会员免费看
订阅专栏 解锁全文
12

被折叠的 条评论
为什么被折叠?



