AdaBoost自适应提升算法

原创于 2025-06-17 07:20:28 发布 · 949 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #人工智能 #AdaBoost自适应提升算法 #深度学习 #机器学习

老猿Python 同时被 2 个专栏收录

1156 篇文章

订阅专栏

零基础机器学习入门

22 篇文章

订阅专栏

☞ ░ 前往老猿Python博客 ░ https://blog.youkuaiyun.com/LaoYuanPython

一、一些基本概念

提升方法的思想有点类似“三个臭皮匠赛过诸葛亮”：对于一个复杂的任务来说，多个专家的判断进行适当的综合所得出的判断，要比其中任何一个专家单独的判断好。

下面介绍与提升方法相关的一些基本概念。

1、强可学习和弱可学习

强可学习（Strongly Learnable）和弱可学习（Weakly Learnable）是Kearns和Valiant提出来的描述学习算法能力的关键概念，也是AdaBoost等集成方法的理论基础。在概率近似正确（probably approximately correct，PAC）学习的框架中：

一个概念（一个类），如果存在一个多项式的学习算法能够学习它，并且正确率很高，那么称这个概念是强可学习的；
一个概念（一个类），如果存在一个多项式的学习算法能够学习它，学习的正确率仅比随机猜测略好（对二分类来说就是概率大于0.5），那么称这个概念是弱可学习的。

2、提升方法的基本思路

对于分类问题而言，给定一个训练样本集，求弱分类器比求强分类器容易很多，提升提升方法的基本思路是：从弱学习算法出发，反复学习，得到一系列弱分类器（又称为基本分类器），然后组合这些弱分类器，构成一个强分类器。

大多数提升方法都是改变训练数据的概率分布（训练数据的权值分布），针对不同的训练数据分布调用弱学习算法学习一系列弱分类器。

提升方法要解决两个问题：

每一轮训练如何改变训练数据的权值或概率分布？提升方法是将前一轮弱分类器错误分类样本的权值提高，正确分类的样本的权值降低，从而提高错误分类数据在新一轮分类的关注度；
如何将一系列弱分类器组合成强分类器？提升方法是加大组合中分类误差率小的弱分类器的权值，减少分类误差率大的弱分类器权值，使得表决时误差小的弱分类器发挥更多的作用。

AdaBoost（Adaptive Boosting，自适应提升）的基本思路是一种通过迭代调整样本权重和组合弱分类器来构建强分类器的集成学习方法。其核心思想是“关注错误”——每一轮迭代中，算法会增加被前一轮分类器错误分类样本的权重，使得后续模型更专注于这些难样本，最终通过加权投票组合所有弱分类器的结果。

在这里插入图片描述

二、AdaBoost自适应提升算法

输入：

训练数据集 $T = \{(x_1, y_1), (x_2, y_2), ..., (x_N, y_N)\}$ ，其中 $x_i \in \mathcal{X} \subseteq \mathbb{R}^n$ ， $y_i \in \{-1, +1\}$
迭代次数 $M$

输出：

最终分类器 $G (x)$

算法步骤：

初始化样本权重：
$D_1 = (w_{11}, w_{12}, ..., w_{1N}), \quad w_{1i} = \frac{1}{N}, \quad i = 1,2,...,N$
对于 $m = 1, 2, ..., M$ ：使用当前权重分布 $D_m$ 进行数据训练，学习基本分类器 $G_m(x)$

a. 训练弱分类器：
$G_m(x): \mathcal{X} \rightarrow \{-1, +1\}$
使用当前权重分布 $D_m$ 训练得到弱分类器 $G_m(x)$ ，但AdaBoost 本身并不规定弱分类器的具体训练方式，而是依赖于用户提供的基学习算法（如决策树、单层决策树等）。

b. 计算分类误差率：
$e_m = \sum_{i=1}^N P(G_m(x_i) \neq y_i) = \sum_{i=1}^N w_{mi} I(G_m(x_i) \neq y_i)= \sum_{G_m(x_i) \neq y_i} w_{mi}$

c. 计算分类器 $G_m(x)$ 权重：
$\alpha_m = \frac{1}{2} \ln \left( \frac{1 - e_m}{e_m} \right)$

d. 更新样本权重：
$w_{m+1,i} = \frac{w_{mi}}{Z_m} \exp (-\alpha_m y_i G_m(x_i)), \quad i = 1,2,...,N$
其中 $Z_m$ 是归一化因子：
$Z_m = \sum_{i=1}^N w_{mi} \exp (-\alpha_m y_i G_m(x_i))$
构建最终分类器：
$\text{sign} \left( \sum_{m=1}^M \alpha_m G_m(x) \right)$

说明：

$I(\cdot)$ 是指示函数，当条件成立时值为1，否则为0
分类器权重 $\alpha_m$ 随 $e_m$ 减小而增大，即误差越小的分类器在最终投票时权重越大
样本权重更新会使被错误分类的样本权重增加，正确分类的样本权重减小

三、关于算法中的两个要点说明

3.1、为什么初始化权重为 $\frac{1}{N}$

初始化权重设为 $\frac{1}{N}$ （即所有样本的初始权重相等）是为了体现初始时所有样本的重要性相同，在训练开始时，算法没有任何先验知识来判断哪些样本更难分类，因此平等对待所有样本是最合理的初始选择。这种均匀分布（Uniform Distribution）的初始化方式确保了算法在第一次迭代时不会偏向某些特定样本。这就使得第一步在原始数据上学习到基本分类求 $G_1(X)$ 。

3.2、分类器权重αₘ的推导

提升方法AdaBoost算法弱分类器的权重只与其分类误差率相关，其计算公式简单，但其推导过程在一般介绍的文章中并没有介绍，为此老猿耗费了几天时间，才推演并理解了整个公式的推导过程，其推导与损失函数、导数等知识有关，具体推导过程请参考老猿的付费专栏文章《AdaBoost算法中计算弱分类器Gm(x) 权重的公式是怎么推导出来的？（https://blog.youkuaiyun.com/LaoYuanPython/article/details/148632397）》。