Adaboost 详解

最新推荐文章于 2025-08-05 10:57:35 发布

原创

最新推荐文章于 2025-08-05 10:57:35 发布 · 6.6k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#技术 #算法

Adaboost 详解

本文会详细介绍 Adaboost (Adaptive Boosting) 这一 ensemble 模型（属于 boosting）。

1. 算法简介

boosting

这属于集成（ensemble）算法中的提升（boosting）方法，是迭代算法。我们每一轮迭代寻找一个合适的 weak learner 集成到模型中（本质上是梯度下降），通过 T 轮的迭代来集成出一个强分类器，这是一个 boosting 提升过程。

adaptive

这涉及实现提升的细节。所有的样本都有自己的 weight，初始化时一致。training 时每一轮迭代，我们要更新所有样本的 weight，模型正确判别的样本 weight 减小，而错误判别的样本 weight 增加。这就是 Adaboost 的核心了，这非常像一个我们依据错误经验持续学习的过程。

steepest decent with approximate functional gradient

本算法数学上可以解释为类似在函数空间上做最速梯度下降。每次迭代中，选择的 weak classifier 函数其实是当前负梯度方向，而对应的权值则是在此方向使 loss 减少最多的步长（greedy~）。这里使用的 loss function 是 exponential function，而 GBDT（gradient boost decision tree）推广到了其他 error function，也可以说 AdaBoost 是一种 GBDT。

2. 训练流程详解

实际上不同 Adaboost 版本的细节策略略有不同，这里讲解的是Viola-Jones 的 Real-Time Face Detection 论文（AdaBoost 的一个著名的成功应用）中使用的版本。

2.1 initialization

假设我们有 N 个样本 $D=[(x_1,y_1),(x_2,y_2),...,(x_n,y_n)]$ ，其中 $x$ 为特征向量， $y$ 为 0/1 分类的 label。
我们要迭代训练 T 轮，样本集 weight 向量 $u^{t=1,2...T}$ 初始化为 $u^{t=1}=[\frac{1}{N},\frac{1}{N},...,\frac{1}{N}]$ ，即 N 个样本的重要性一开始是一致的，且和为 1。
（这是正例负例等比例的情况，不等比例时，可以假设正例 M 个而负例 L 个则初始化为 $u^{t=1}=[\frac{1}{2M},\frac{1}{2M},...,\frac{1}{2L},\frac{1}{2L}]$ ，即保证正负例各自总权重皆为 $\frac{1}{2}$ ）

2.2 training iteration

（对于第 $t$ 轮迭代）

选取 weak classifier 并计算 error：
根据当前样本权重 $u^{t}$ 获取一个当前最好的 weak classifier $h_t(x)$ 函数（训练一个 decision tree 或者 decision stump），函数输出 0/1 结果，其相关 error 为 $\epsilon_t=\frac{1}{N}\sum_{i=1}^Nu_i^{t}|h_t(x_i)-y_i|$ 。这里应该有 $0\leq\epsilon_t<0.5$ ，因为我们要求 weak classifier 至少优于乱猜。

更新训练集样本权重：
针对 $\epsilon_t$ ，我们设置一个核心变量 scaling factor $s_t=\displaystyle\frac{1-\epsilon_t}{\epsilon_t}$ （ $1<s_t<\infty$ ），并更新样本集 weight ：

$u t + 1 i = {u t i u t i / s t h t (x i) \neq y i, i n c o r r e c t c a s e h t (x i) = y i, c o r r e c t c a s e$ $u^{t+1}_i=\begin{cases} u^{t}_i& h_t(x_i)\ne y_i,\ incorrect\ case\\ u^{t}_i/s_t& h_t(x_i)= y_i,\ correct\ case \end{cases}$
除了上述公式，之后还会对 $u^{t+1}_i$ 重新 normalize $u^{t+1}_i=\frac{u^{t+1}_i}{\sum^N_{j=1} u^{t+1}_j}$ ，保证和为 1。
可以注意到这里的 adaptive 的机制：本轮迭代 $h_t(x)$ 错误分类的样本的 weight 会增大（scale up incorrect），正确分类样本的 weight 相应减小（scale down correct）

确认此 weak classifer 权重：
会根据本轮 $h_t(x)$ 的表现给予它一个权重 $\alpha_t=ln\ s_t$ （ $0<\alpha_t<\infty$ ）；当 $\epsilon_t=0$ 时， $\alpha_t=\infty$ 即对于完美的 classifier 我们可以给到无穷大的权重；而当 $\epsilon_t=0.5$ 时， $\alpha_t=0$ 即对于乱猜的 classifier 直接不予集成。可见 error 越小的分类器权重越大。

2.3 aggregation

历经 T 轮训练后，将 T 个 $h_t(x)$ 线性集成为 strong classifier。实际上集成的参数在迭代过程中已经决定了，这又称为 linearly on the fly with theoretical guarantee，涉及的理论验证之后会详述。

$C (x i) = {10 \sum T t α t h t (x i) \geq 1 2 \sum T t α t o t h e r w i s e$ $C(x_i)=\begin{cases} 1& \sum_t^T\alpha_th_t(x_i)\ge\frac{1}{2}\sum_t^T\alpha_t\\ 0& otherwise \end{cases}$
$h_t(x_i)$ 是 weak classifier 的 0/1 投票， $\alpha_th_t(x_i)$ 则是加权投票；当所有 weak classifier 对样本的加权投票结果大于整体权值的 $\frac{1}{2}$ 时，strong classifier 判定样本为 positive，否则为 negative。
3. Weak Classifier

这里把训练流程中的 weak classifier 单独拿出来详细说明。

3.1 Compare to Random Forest

Random Forest 也是 ensemble 集成算法，属于 bagging 类别，通过 bootstrap 来 uniformly aggregate 了一组等权重的 decision tree，然后通过投票给出整体结果。这是使用 classification（输出 0/1 结果）或者 regression decision tree 都可以。

这个也是 weak classifier 集成为 strong classifier 的过程，但是集成思想和 Adaboost 不一致（bagging vs. boosting）。Adaboost 也可以使用 classification decision tree 作为 weak classifier，但更常用的是更 weaker 的 decision stump。这里还可以想象一下，我们如果给 Adaboost 一个 fully grown 的 decision tree，那么可能会有 $\epsilon=0，s=\infty$ ，训练就崩坏了~ 所以即使用 decision tree 也要做约束出弱的树，而不是像 Random Forest 那样 fully grown。

3.2 Decision Stump

这个是一个弱弱的 weak classifier，类似只有 1 层的树，只剩一个树桩了。具体公式如下：

$h f, p, θ (x) = {$

最低0.47元/天解锁文章