组合假设的函数梯度技术:从理论到实践
1. 引言
在模式分类领域,投票方法近年来备受关注。像 AdaBoost 和 Bagging 这样的算法,相较于对应基分类器的算法,显著提升了性能,从而引发了对众多相关算法的研究。理论研究表明,这些算法的有效性源于它们倾向于生成具有大间隔的分类器。
Mason 等人给出了组合分类器误分类概率的改进上界,该上界基于训练数据上间隔的某个成本函数的平均值。他们还介绍了 DOOM 算法,该算法通过修改现有组合分类器的权重来最小化这个成本函数,并且表现出比 AdaBoost 更好的性能。本文提出了 MarginBoost 算法,用于选择分类器的组合以优化间隔的任何成本函数的样本平均值。
同时,存在一种更简单、抽象的视角来看待 MarginBoost 算法,即 AnyBoost 算法。它是一种梯度下降算法,用于选择内积空间元素的线性组合,以最小化某个成本泛函。
2. 优化间隔的成本函数
2.1 符号与目标
假设示例 (x, y) 是根据未知概率分布 D 在 X × Y 上随机生成的,其中 X 是测量空间,Y 是标签空间。我们的目标是构建形式为 sgn (F(x)) 的投票组合分类器,使得 F 对随机示例错误分类的概率较小。为此,我们通过最小化训练集上间隔的某个成本函数的样本平均值来实现。
2.2 AnyBoost 算法
AnyBoost 算法是通过函数空间中的梯度下降来生成分类器的加权组合。在抽象层面,将基假设 f 和它们的组合 F 视为内积空间 (X, ⟨, ⟩) 中的元素。对于给定的函数 F,我们寻找新的 f 加入 F,使得成本 C(F +
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



