AdaBoost算法原理详细总结

最新推荐文章于 2025-04-24 02:45:00 发布

天才厨师1号

最新推荐文章于 2025-04-24 02:45:00 发布

阅读量2.6k

点赞数 5

分类专栏：机器学习文章标签： adaboost AdaBoost算法机器学习算法 python

本文链接：https://blog.youkuaiyun.com/weixin_40449129/article/details/103104626

版权

本文深入探讨AdaBoost分类算法的原理，从boosting框架引入，解释AdaBoost如何通过调整样本权重提升模型精度。文章详细阐述了算法的训练误差分析、前向分步加法模型的角度解释以及算法的优缺点总结，适合对机器学习感兴趣的读者深入理解AdaBoost。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在集成学习方法之Bagging，Boosting，Stacking篇章中，我们谈论boosting框架的原理，在boosting系列算法中，AdaBoost是著名的算法之一。AdaBoost是英文"Adaptive Boosting"（自适应增强）的缩写，由Yoav Freund和Robert Schapire在1995年提出。
今天我们就来探讨下AdaBoost分类算法的原理，本篇我们先介绍AdaBoost算法；然后通过误差分析探讨AdaBoost为什么能提升模型的学习精度；并且从前向分步加法模型角度解释AdaBoost；最后对AdaBoost的算法优缺点进行一个总结。

1）从boosting到AdaBoost算法

集成原理中，我们提到的boosting框架的思想是选择同质的基分类器，让基分类器之间按照顺序进行训练，并让每个基分类器都尝试去修正前面的分类。既然这样，怎样才能让同质的基分类器能够修正前面的分类？或者说怎样才能让同质的基分类器之间保持“互助”呢？
AdaBoost的做法是，让前一个基分类器 $f_{t-1}(x)$ 在当前基分类器 $f_t(x)$ 的训练集上的效果很差（和我们随机瞎猜一样），这样 $f_t(x)$ 就能修正 $f_{t-1}(x)$ 的分类误差， $f_t(x)$ 和 $f_{t-1}(x)$ 之间也就产生了“互助”。
AdaBoost的具体做法是，通过提高被前一轮基分类器 $f_{t-1}(x)$ 分类错误的样本的权值，降低被正确分类样本的权值，使得上一个基分类器 $f_{t-1}(x)$ 在更新权值后的训练集上的错误率 $\epsilon_{t-1}$ 增大到0.5。（再在更新权值后的训练集上训练基分类器 $f_t(x)$ ，那 $f_t(x)$ 必能和 $f_{t-1}(x)$ 产生互助。）

2）AdaBoost算法

下面我们在二分类问题上介绍AdaBoost算法。假如给定训练数据集 $T=\left\{ (x^i,y^i) \right\}^n_{i=1}$ ， $x^i\in R^d$ ， $y^i\in\left\{ -1,1\right\}$
样本权值为 $w_i^n$ ，误差率 $\epsilon_i$ 。在训练数据集 $T$ 上训练第一个基分类器 $f_1(x)$ ，其错误率为 $\epsilon_1，\epsilon_1 < 0.5$ （起码比瞎猜要好一些）
$\epsilon_1=\frac{\sum_nw_1^n\delta((f_1(x^n)\neq {\hat y}^n)}{Z_1} \qquad Z_1 = \sum_nw_1^n$
更新样本的权值（权值为 $w_2^n$ ）后的训练集为 ${T}'$ ，使得 $f_1(x)$ 在 ${T}'$ 分类效果等同于随机瞎猜（ $\epsilon=0.5$ ）。用数学语言表示即为
$\frac{\sum_nw_2^n\delta((f_1(x^n)\neq {\hat y}^n)}{Z_2}=0.5 \qquad Z_2 = \sum_nw_2^n$
那么样本权重如何更新呢？AdaBoost具体做法是，减小 $f_1(x)$ 分类正确的样本的权值，权值除以一个常数 $d$ ，即 $\frac{w_1^n}{d_1}$ ；增大 $f_1(x)$ 分类错误的样本的权值，权值乘以一个常数 $d$ ，即 $w_1^nd_1$ 。用数学语言表示即为
$\begin{cases} w_2^n = w_1^nd_1 \qquad if \ f_1(x^n)\neq {\hat y}^n)\\ w_2^n = \frac{w_1^n}{d_1} \qquad if \ f_1(x^n)= {\hat y}^n)\\ \end{cases}$
下面我们再回到下式中来，

$\frac{\sum_nw_2^n\delta((f_1(x^n)\neq {\hat y}^n)}{Z_2}=0.5$

其中， $Z_2=\sum_{f_1(x^n)\neq {\hat y}^n} w_1^n d_1+\sum_{f_1(x^n)= {\hat y}^n} \frac{w_1^n}{d_1}$ ；当 $f_1(x^n)\neq {\hat y}^n$ 时， $w_2^n = w_1^nd_1$ 。
将上面两式带入得：

$\frac{\sum_{f_1(x^n)\neq {\hat y}^n} w_1^n d_1}{\sum_{f_1(x^n)\neq {\hat y}^n} w_1^n d_1+\sum_{f_1(x^n)= {\hat y}^n} \frac{w_1^n}{d_1}}=0.5$

$\sum_{f_1(x^n)= {\hat y}^n} \frac{w_1^n}{d_1}=\sum_{f_1(x^n)\neq {\hat y}^n} w_1^n d_1$

又因为 $\epsilon_1=\frac{\sum_{f_1(x^n)\neq {\hat y}^n} w_1^n}{Z_1}\Rightarrow \epsilon_1Z_1=\sum_{f_1(x^n)\neq {\hat y}^n} w_1^n$
$1-\epsilon_1=\frac{\sum_{f_1(x^n)= {\hat y}^n} w_1^n}{Z_1}\Rightarrow (1-\epsilon_1)Z_1=\sum_{f_1(x^n)= {\hat y}^n} w_1^n$
因此，

最低0.47元/天解锁文章