初识AdaBoost

最新推荐文章于 2025-08-05 23:20:10 发布

原创最新推荐文章于 2025-08-05 23:20:10 发布 · 597 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#AdaBoost #集成学习

机器学习专栏收录该内容

11 篇文章

订阅专栏

AdaBoost

martin

AdaBoost

AdaBoost是典型的Boosting方法，并且效果很显著。下图是AdaBoost的框架图：

adaboost.png-43.7kB

算法过程

下面介绍AdaBoost算法的过程：
1. 初始化训练数据的权值分布：

D 1 = (w 11, w 12, w 13, . . ., w 1 N), w 1 i = 1 N, i = 1, 2, . . ., N

$D_1 = (w_{11},w_{12},w_{13},...,w_{1N}),w_{1i}={1\over N},i=1,2,...,N$

2. 对 $m=1,2,...,M$
(a) 使用具有权值分布 $D_m$ 的训练集学习，得到基本分类器：

G m (x) : X - > {- 1, + 1}

$G_m(x):X->\{-1,+1\}$
(b) 计算

Gm(x) $G_m(x)$ 在训练数据集上的分类误差：

e m = P (G m (x i) \neq y i) = \sum N i = 1 w m i I ( G m ( x i ) \neq y i ) \sum N i = 1 w m i = \sum i = 1 N w m i I (G m (x i) \neq y i)

$e_m = P(G_m(x_i)\not=y_i)={\sum_{i=1}^Nw_{mi}I(G_m(x_i)\not=y_i)\over \sum_{i=1}^Nw_{mi}}=\sum_{i=1}^Nw_{mi}I(G_m(x_i)\not=y_i)$

上 式 中 ， \sum i = 1 N w m i = 1

$上式中，\sum_{i=1}^Nw_{mi}=1$
(c) 计算

Gm(x) $G_m(x)$ 的系数：

α m = 1 2 l o g 1 - e m e m

$\alpha_m = {1\over 2}log{{1-e_m}\over e_m}$
(d) 更新数据集的权值分布：

D m + 1 = (w m + 1, 1, w m + 1, 2, . . ., w m + 1, N)

$D_{m+1} = (w_{m+1,1},w_{m+1,2},...,w_{m+1,N})$

w m + 1, i = w m i Z m e - α m y i G m (x i)

$w_{m+1,i} = {w_{mi}\over Z_m}e^{-\alpha_my_iG_m(x_i)}$

其 中 ， Z m = \sum i = 1 N w m i e - α m y i G m (x i) ， 是 规 范 化 因 子

$其中，Z_m = \sum_{i=1}^Nw_{mi}e^{-\alpha_my_iG_m(x_i)}，是规范化因子$
(e) 重复

(a)−(d) $(a)-(d)$ 步

m $m$ 次得到

m $m$ 个权值

a $a$ 和

m $m$ 个基分类器

G(x) $G(x)$

3. 构建基本分类器的线性组合：

f (x) = \sum m = 1 M a m G m (x)

$f(x) = \sum_{m=1}^Ma_mG_m(x)$
4. 最终得到分类器：

G (x) = s i g n (f (x)) = s i g n (\sum m = 1 M a m G m (x))

$G(x) = sign(f(x)) = sign(\sum_{m=1}^{M}a_mG_m(x))$

基分类器权值 $a$ 与训练数据集权值 $w$ 的分析

1. 先来看基分类器的权值 $\alpha$ ，公式如下:

α = 1 2 l o g 1 - e m e m

$\alpha = {1\over 2}log{{1-e_m}\over e_m}$

我们知道AdaBoost是将多个弱分类器组合起来形成一个很强的分类器，但这里有个隐含条件：弱分类器。什么叫弱分类器？意思就是在效果上比随机猜想要好的分类器。比如二分类问题，随机猜想的正确率是0.5，所以说弱分类器的正确率一定要比0.5高，于是它的错误率 $e_m<0.5$ ，所以 $\color{red}{\alpha会随着e_m的减小而增大}$ ，这是什么意思？意思是，如果我的基分类器的错误率很小，也就是正确率很大，那么在众多基分类器中我给予它很大的权值 $\alpha$ ，让它能发挥更大的作用。

2. 再来看训练数据集分布的权值分配，公式如下：

w m + 1, i = w m , i Z m e - a m y i G (x i) = ⎧ ⎩ ⎨ w m , i Z m e - a m ， G m ( x i ) = y i w m , i Z m e a m ， G m ( x i ) \neq y i

$w_{m+1,i} = {w_{m,i}\over Z_m}e^{-a_my_iG(x_i)}= \left\{ {\text{${w_{m,i}\over Z_m}e^{-a_m}$，$G_m(x_i)=y_i$}\atop \text{${w_{m,i}\over Z_m}e^{a_m}$，$G_m(x_i)\not=y_i$}} \right.$

由公式可知，对训练集的样例正确分类与错误分类之间，错误分类样本的权值被放大： $e^{2\alpha_m} = {{1-e^m}\over e^m}$ 倍，所以，在下一轮学习中将会被更大关注。

AdaBoost推导

AdaBoost模型是由基本分类器组成的 $\color{red}{加法模型}$ ，损失函数是 $\color{red}{指数函数}$ 。

1. 加法模型： $f(x) = \sum_{m=1}^M\alpha_mG_m(x)$

2. 损失函数： $L(y,f(x)) = e^{-yf(x)}$

3. 每次训练后的基分类器都是乘以 $\alpha$ 再与前一个模型线性相加，所以对于第 $m-1$ 次训练后模型为：

f m - 1 = f m - 2 + α m - 1 G m - 1 (x) = α 1 G 1 (x) + . . . + α m - 1 G m - 1 (x)

$\begin{align} f_{m-1} &= f_{m-2}+\alpha_{m-1}G_{m-1}(x)\\ & = \alpha_1G_1(x)+...+\alpha_{m-1}G_{m-1}(x)\\ \end{align}$

4. 于是，在第 $m$ 次训练后有： $f_m(x) = f_{m-1}(x)+\alpha_mG_m(x)$

5. 目标是每一次的损失在训练集上最小，所以最小化目标函数为：

(α m, G m (x)) = m i n \sum i = 1 N e - y i f m (x i) = m i n \sum i = 1 N e - y i [f m - 1 (x i) + α m G m (x)] = m i n \sum i = 1 N e - y i f m - 1 (x i) - y i α m G m (x) = m i n \sum i = 1 N w m i e - y i α m G m (x)

$\begin{align} (\alpha_m,G_m(x)) &= min\sum_{i=1}^Ne^{-y_if_m(x_i)}\\ & = min\sum_{i=1}^Ne^{-y_i[f_{m-1}(x_i)+\alpha_mG_m(x)]}\\ & = min\sum_{i=1}^Ne^{-y_if_{m-1}(x_i)-y_i\alpha_mG_m(x)}\\ & = min\sum_{i=1}^Nw_{mi}e^{-y_i\alpha_mG_m(x)}\\ \end{align}$

上式中，将 $e^{-y_if_{m-1}(x_i)}=w_{mi}$ ，因为 $w_{mi}$ 既不依赖 $\alpha$ 也不依赖与 $G$ ，所以与最小无关。

6. 于是，有：

m i n \sum i = 1 N w m i e - y i α m G m (x) = m i n \sum y i = G m (x i) w m i e - a + \sum y i \neq G m (x i) w m i e a = m i n (e - a \sum i = 1 N w m i I (y i = G m (x i)) + e α \sum i = 1 N w m i I (y i \neq G m (x i))) = m i n (e - a \sum i = 1 N w m i [1 - I (y i \neq G m (x i))] + e α \sum i = 1 N w m i I (y i \neq G m (x i))) = m i n ((e α - e - α) \sum i = 1 N w m i I (y i \neq G m (x i)) + e - a \sum i = 1 N w m i)

$\begin{align} min\sum_{i=1}^Nw_{mi}e^{-y_i\alpha_mG_m(x)} & = min\sum_{y_i=G_m(x_i)}w_{mi}e^{-a}+\sum_{y_i\not=G_m(x_i)}w_{mi}e^a\\ & = min(e^{-a}\sum_{i=1}^Nw_{mi}I(y_i=G_m(x_i))+e^\alpha\sum_{i=1}^Nw_{mi}I(y_i\not=G_m(x_i)))\\ &=min(e^{-a}\sum_{i=1}^Nw_{mi}[1-I(y_i\not=G_m(x_i))]+e^\alpha\sum_{i=1}^Nw_{mi}I(y_i\not=G_m(x_i)))\\ & = min((e^\alpha-e^{-\alpha})\sum_{i=1}^Nw_{mi}I(y_i\not=G_m(x_i))+e^{-a}\sum_{i=1}^Nw_{mi}) \end{align}$

所以，我们得到了优化的目标函数：