集成学习（4）— Adaboost算法

最新推荐文章于 2025-09-06 15:28:43 发布

原创最新推荐文章于 2025-09-06 15:28:43 发布 · 615 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #决策树 #机器学习

机器学习专栏收录该内容

20 篇文章

订阅专栏

Adaboost算法是一种boosting系列算法，适用于分类和回归任务。它通过迭代地训练多个弱学习器并结合它们来创建一个强学习器。Adaboost算法在每轮迭代中调整样本权重，使错误分类的样本在后续的学习中得到更多关注。最终，通过加权表决或取中位数策略，将弱学习器组合成一个强学习器。

boosting系列算法个体学习器之间存在强依赖关系，Adaboost是boosting系列算法中最著名的算法之一。Adaboost既可以用作分类，也可以用作回归。

boosting算法的工作流程是：
（1）从训练集用初始权重训练出一个弱学习器1；
（2）根据弱学习的学习误差率表现来更新训练样本的权重，使得之前弱学习器1学习误差率高的训练样本点的权重变高，使得这些误差率高的点在后面的弱学习器2中得到更多的重视；
（3）基于调整权重后的训练集来训练弱学习器2
如此重复进行，直到弱学习器数达到事先指定的数目T，最终将这T个弱学习器通过集合策略进行整合，得到最终的强学习器。

在boosting算法中有几个问题如下：
1）如何计算学习误差率e?
2) 如何得到弱学习器权重系数 $\alpha$
3) 如何更新样本权重D
4) 使用何种结合策略

1. Adaboost算法思路

假设训练集样本是 $T={(x_1,y_1),(x_2,y_2),...(x_m,y_m)}$

训练集的在第k个弱学习器的样本权重为 $D(k)=\left(w_{k 1}, w_{k 2}, \ldots w_{k m}\right) ; w_{1 i}=\frac{1}{m} ; i=1$

1.1 分类问题

[1].分类器误差率计算
由于多元分类是二元分类的推广，这里假设我们是二元分类问题，输出为{-1，1}，则第k个弱分类器 $G_k(x)$ 在训练集上的加权误差率为
$e_{k}=P\left(G_{k}\left(x_{i}\right) \neq y_{i}\right)=\sum_{i=1}^{m} w_{k i} I\left(G_{k}\left(x_{i}\right) \neq y_{i}\right)$

即：所有分错样本的样本权重和

[2]. 学习器权重系数计算
对于二元分类问题，第k个弱分类器 $G_k(x)$ 的权重系数为
$\alpha_{k}=\frac{1}{2} \log \frac{1-e_{k}}{e_{k}}$
从上式可以看出，如果分类误差率 $e_k$ 越大，则对应的弱分类器权重系数 $α_k$ 越小。也就是说，误差率小的弱分类器权重系数越大。

[3]. 更新样本权重D
假设第k个弱分类器的样本权重系数为 $D(k)=(w_{k1},w_{k2},...w_{km})$ ，则对应的第k+1个弱分类器的样本集权重系数为
$w_{k+1, i}=\frac{w_{k i}}{Z_{K}} \exp \left(-\alpha_{k} y_{i} G_{k}\left(x_{i}\right)\right)$

这里 $Z_k$ 是规范化因子
$Z_{k}=\sum_{i=1}^{m} w_{k i} \exp \left(-\alpha_{k} y_{i} G_{k}\left(x_{i}\right)\right)$

类似于softmax的计算，但是softmax的输入为：分类器的权重系数与分类器预测值及标签值得乘积取负数

从 $w_{k+1,i}$ 计算公式可以看出，如果第 $i$ 个样本分类错误，则 $y_iG_k(x_i)<0$ ，导致样本的权重在第k+1个弱分类器中增大，如果分类正确，则权重在第k+1个弱分类器中减少.

[4]. 集合策略
Adaboost分类采用的是加权表决法，最终的强分类器为
$f(x)=\operatorname{sign}\left(\sum_{k=1}^{K} \alpha_{k} G_{k}(x)\right)$

即：用所有分类器得权重乘以分类器得预测值得和来表决

1.2 回归问题

由于Adaboost的回归问题有很多变种，这里我们以Adaboost R2算法为准

[1].分类器误差率计算
第k个弱学习器在训练集上的最大误差 $E_{k}=\max \left|y_{i}-G_{k}\left(x_{i}\right)\right| i=1,2 \ldots m$

每个样本的相对误差
$e_{k i}=\frac{\left|y_{i}-G_{k}\left(x_{i}\right)\right|}{E_{k}}$

上面公式是误差损失为线性时的情况，也可以选用平方误差： $e_{k i}=\frac{\left(y_{i}-G_{k}\left(x_{i}\right)\right)^{2}}{E_{k}^{2}}$ 以及指数误差： $e_{k i}=1-\exp \left(\frac{\left.-y_{i}+G_{k}\left(x_{i}\right)\right)}{E_{k}}\right)$
最终得到第k个弱学习器的误差率为：
$e_{k}=\sum_{i=1}^{m} w_{k i} e_{k i}$

即所有样本的样本权重与样本相对误差乘积和

[2].弱学习器的权重系数计算
$\alpha_{k}=\frac{e_{k}}{1-e_{k}}$

可以发现若学习器误差率越大，学习器权重系数越大（此处没错，注意下面解释）

[3]. 更新样本权重D
第k+1个弱学习器的样本集权重系数为
$w_{k+1, i}=\frac{w_{k i}}{Z_{k}} \alpha_{k}^{1-e_{k i}}$

这里 $Z_k$ 是规范化因子
$Z_{k}=\sum_{i=1}^{m} w_{k i} \alpha_{k}^{1-e_{k i}}$

注意到没，此处权重系数公式中使用了 $1-e_{ki}$ 把符号提到前面，就相当于 $\alpha_k^{-1}$ 即对 $\alpha_k$ 倒过来了，因此在步骤【2】中的【错误】并不是错的

[4].结合策略
和分类问题稍有不同，采用的是对加权的弱学习器取权重中位数对应的弱学习器作为强学习器的方法，最终的强回归器为
$f(x)=G_{k*}(x)$

其中， $G_{k∗}(x)$ 是所有 $ln\frac{1}{α_k},k=1,2,....K$ 的中位数值对应序号 $k^∗$ 对应的弱学习器。

1.3 小结

从另一个角度讲，Adaboost是模型为加法模型，学习算法为前向分步学习算法，损失函数为指数函数的分类问题
（1）模型为加法模型，因为最终的强分类器是若干个弱分类器加权平均而得到的

（2）前向分步学习算法也好理解，我们的算法是通过一轮轮的弱学习器学习，利用前一个强学习器的结果和当前弱学习器来更新当前的强学习器的模型。也就是说，第k-1轮的强学习器为 $f_{k-1}(x)=\sum_{i=1}^{k-1} \alpha_{i} G_{i}(x)$ ；而第k轮的强学习器为 $f_{k}(x)=\sum_{i=1}^{k} \alpha_{i} G_{i}(x)$ ，即 $f_{k}(x)=f_{k-1}(x)+\alpha_{k} G_{k}(x)$ ；可见强学习器的确是通过前向分步学习算法一步步而得到的

（3）Adaboost损失函数为指数函数，即定义损失函数为 $\underbrace{\arg \min }_{\alpha, G} \sum_{i=1}^{m} \exp \left(-y_{i} f_{k}(x)\right)$

2. AdaBoost二元分类问题算法流程

（1）初始化样本集权重 $D_1$ 为 $\frac{1}{m}$ (共m个样本)
（2）使用 $D_k$ 样本权重的样本集训练学习器 $G_k(x)$ (k= 1,2,3…K)
（3）计算分类器 $G_k(x)$ 的分类误差率
（4）计算弱分类器的权重系数
（5）更新样本集权重系数 $D_{k+1}$
重复（2）到（5）直到 k = K
（6）构造最终分类器 $f(x)=\operatorname{sign}\left(\sum_{k=1}^{K} \alpha_{k} G_{k}(x)\right)$