树模型-Adaboost

最新推荐文章于 2025-03-29 10:56:09 发布

myazi

最新推荐文章于 2025-03-29 10:56:09 发布

阅读量533

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习机器学习

本文链接：https://blog.youkuaiyun.com/u010865478/article/details/82708409

机器学习同时被 2 个专栏收录

42 篇文章

订阅专栏

机器学习

30 篇文章

订阅专栏

树模型

1、决策树 ID3，C4.5，CART

2、随机森林RF

3、Adaboost

4、GBDT

5、XGboost

6、孤立森林（异常检测）

三、Adaboost

一、Adaboost的Boosting理解

Adaboost是集成学习中Boosting方式的代表。多个基学习器其串行执行，下一个学习器基于上一个学习器的经验，通过调整样本的权重，使得上一个错分的样本在下一个分类器更受重视而达到不断提升的效果。Adaboost集成多个学习器的关键在两点：

1）设置基学习器的权重 $a_{m}=\frac{1}{2}log\frac{1-e_{m}}{e_{m}}$

2）调整样本的权重 $w_{m+1,i}=\frac{w_{m,i}}{Z_{m}}exp(-a_{m}y_{i}G_{m}(x_{i}))$

相对随机森林的Bootstrap Sampling重采样技术，可以看出Adaboost的权重调整是有目的性，是基于上一个学习器的经验，这也导致Adaboost在基学习器层是串行的。另外值得探讨的是权重为何如此设置？

Adaboost算法采用的基学习器是二值函数（二叉树）模型（当然Adaboost的核心是采用Boosting的思想），下面先来看Adaboost算法的整个流程，后面分析Adaboost在设计上巧妙之处

输入：训练集 $D = \left \{(x_1y_1),(x_2,y_2),…,(x_N,y_N) \right \}$ ，其中 $x_i \in \mathbb{R}^n$ ， $y_i \in \left \{+1,-1 \right \}$

输出：强学习器 $G(x)$

1）初始化权值： $D_1 = {w_{11},w_{12},…,w_{1N}}$ ， $w_{1i} = \frac{1}{N},i=1,2,…,N$

2）训练M个基学习器，对 $m=1,2...M$

a）使用权值分布 $D_{m}$ 与相应的基学习器算法得到第 $m$ 个基学习器 $G_{m}(x)：x_{i} \rightarrow y_{i}$

b）计算基学习器 $G_{m}(x)$ 的训练误差：

$e_m = P(G_m(x_i) \ne y_i) = \sum_i^Nw_{mi}I(G_m(x_i) \ne y_i)/\sum_{i}^Nw_{mi}$

c）计算基学习器的权重

如果 $e_{m}>\frac{1}{2}$ ： $a_{m}=0$ ，舍弃基学习器，样本权重更新与不更新一致

否则： $a_m = \frac{1}{2} \log \frac{1-e_m}{e_m}$

d）更新样本的权重：

$D_{m+1} = ({w_{m+1,1},....,w_{m+1,i},…,w_{m+1,N}})$

其中， $w_{m+1,i} = \frac{w_{mi}}{Z_m}\exp(-a_m y_i G_m(x_i))$

这里 $Z_{m}$ 是归一化因子： $Z_m = \sum_i w_{mi}\exp(-a_my_iG_m(x_i))$ ，使得 $D_{m+1}$ 满足一个概率分布

3）得到 $M$ 个基学习器之后，将基学习器线性组合：

$f(x) = \sum_m a_mG_m(x)$

4）得到最终的分类器：

$G(x) = sign(f(x)) = sign(\sum_m a_mG_m(x))$

Adaboost算法流程基本与Boosting思想一致，特别之处在于权重的设计，下面分析一下：

1）基学习器的权重 $a_m = \frac{1}{2} \log \frac{1-e_m}{e_m}$ ，当 $0\leq e_{m}\leq\frac{1}{2}$ ， $a_{m}\geq0$ ，且 $a_{m}$ 随 $e_{m}$ 的减小而增大，也就是说当基学习器的误差越小，权重越大。

2）样本权重更新公式可以表示如下：

w m + 1, i = ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ 1 Z m w m i e - a m, G m (x i) = y i 1 Z m w m i e a m, G m (x i) \neq y i

$w_{m+1,i} = \left \{ \begin{aligned} \frac{1}{Z_m} w_{mi}e^{-a_m} , G_m(x_i) = y_i \\ \frac{1}{Z_m} w_{mi}e^{a_m} \ , G_m(x_i) \ne y_i \end{aligned} \right.$
也就是说正确分类

yi=Gm(xi)yi=Gm(xi) $y_{i}=G_{m}(x_{i})$ ，那么

−am<0−am<0 $-a_{m}<0$ ，正确分类的样本权重在上一次的基础上乘上一个小于1的因子而减小，反之，错分的样本的权重增大。

3） $M$ 个基学习器在线性组合时，需要注意的是 $\sum_m a_m \ne 1$ ，最终的 $f(x) = \sum_m a_mG_m(x)$ 是一个 $[-\sum_m a_m,\sum_m a_m]$ 区间的值，符号决定分类，绝对值表示分类一个确信度。

二、Adaboost的指数损失理解

Adaboost算法是前向分步加法算法的特例，以模型为加法模型，损失函数为指数函数的二类分类学习方法。考虑加法模型（additive model）

f (x) = \sum m β m b (x; γ m)

$f(x) = \sum_m \beta_mb(x; \gamma_m)$
其中，

b(x;γm)b(x;γm) $b(x; \gamma_m)$ 为基函数，

γmγm $\gamma_m$ 为基函数的参数，

βmβm $\beta_m$ 为基函数的权重，显然这是一个加法模型。

在给定训练集和损失函数 $L(y,f(x))$ 的条件下，学习加法模型 $f(x)$ 就是最小化损失函数的问题：

a r g min β m, γ m \sum i = 1 N L [y i, \sum m β m b (x i; γ m)]

$arg\min_{\beta_m, \gamma_m} \sum^N_{i=1}L \left [y_i,\sum_m \beta_mb(x_i; \gamma_m) \right ]$
当然，我们可以将加法模型看作一个复合函数（加法），直接优化各个系数和基函数参数，但这样问题就变复杂了。考虑前向分步算法，逐个优化每一个基函数和系数来逼近复合函数，那么问题就简化了。具体的，每一步需要优化如下目标函数：

a r g min β m, γ m \sum i = 1 N L [y i, β m b (x i; γ m)]

$arg\min_{\beta_m, \gamma_m} \sum^N_{i=1}L \left [y_i, \beta_mb(x_i; \gamma_m) \right ]$
按照这种分步策略，每步优化一个基函数和系数，我们有前向分步算法如下：

输入：训练集 $D = \left \{(x_1y_1),(x_2,y_2),…,(x_N,y_N) \right \}$ ，损失函数： $L(y,f(x))$ ，基函数 $\{b(x;\gamma)\}$

输出：加法模型 $f(x)$

1)初始化 $f_{0}(x)=0$

2)学习 $M$ 基函数和系数，从 $m = 1,2,…M$

a)极小化损失函数 $\beta_m,\gamma_m=arg\min_{\beta,\gamma} \sum_iL(y_i,f_{m-1}(x_i)+ \beta b(x_i; \gamma))$

b)更新 $f_m(x) = f_{m-1}(x) + \beta_m b(a_i; \gamma_m)$

3)得到最终的加法模型 $f(x) = f_M(x) = \sum_m\beta_mb(x,\gamma_m)$

前向分步算法通过逐个优化基函数，逐渐弥补残差的思想完成 $M$ 个基函数的学习。

回到Adaboost算法，Adaboost是前向分步加法模型的特例。特例在于Adaboost是二分类，且损失函数定义为指数损失和基函数定义为二分类函数。

1）指数损失函数 $L(y,f(x)) = -yexp(f(x))=exp(-yf(x))，y\in\{ -1,1\}$

2）基函数 $G_{m}(x)：x_{i} \rightarrow y_{i}, y_{i} \in \{-1,1\}$

在Adaboost算法中，我们最终的强学习器为：

f (x) = \sum m a m G m (x)

$f(x) = \sum_ma_mG_m(x)$
以第

mm $m$ 步前向分步算法为例，第

m

$m$ 个基函数为：

f m (x) = f m - 1 (x) + a m G m (x)

$f_m(x) = f_{m-1}(x)+a_mG_m(x)$
其中

fm−1(x)fm−1(x) $f_{m-1}(x)$ 为：

f m - 1 (x) = f m - 2 (x) + a m - 1 (x) G m - 1 (x) = a 1 G 1 (x) +, \dots, + a m G m (x)

$f_{m-1}(x) = f_{m-2}(x) +a_{m-1}(x)G_{m-1}(x) = a_1G_1(x) +,…,+a_mG_m(x)$
根据前向分步算法得到

amam $a_{m}$ 和

Gm(x)Gm(x) $G_{m}(x)$ 使得

fm(x)fm(x) $f_{m}(x)$ 在训练集

DD $D$ 上的指数损失最小，即：

a_{m}^{*}, G_{m}^{*} (x) = a r g min_{a, G} \sum_{i} e x p [- y_{i} (f_{m - 1} (x_{i}) + a_{m} G_{m} (x_{i}))] = a r g min_{a_{m}, G_{m}} \sum_{i} e x p [- y_{i} f_{m - 1} (x_{i})] \cdot e x p [- y_{i} a_{m} G_{m} (x_{i})] = a r g min_{a_{m}, G_{m}} \sum_{i} w_{m i} e x p [- y_{i} a_{m} G_{m} (x_{i})]

$a^*_m,G^*_m(x) = arg \min_{a,G} \sum_i exp[-y_i(f_{m-1}(x_i) +a_mG_m(x_i))]\\ = arg \min_{a_m,G_m} \sum_i exp[-y_if_{m-1}(x_i)]\cdot exp[-y_ia_mG_m(x_i)]\\ =arg \min_{a_m,G_m} \sum_i w_{mi} exp[-y_ia_mG_m(x_i)]$
其中

wm,i=exp[−yifm−1(xi)]wm,i=exp[−yifm−1(xi)] $w_{m,i}=exp[-y_if_{m-1}(x_i)]$ ，可以看出

wm,iwm,i $w_{m,i}$ 只与

fm−1(x)fm−1(x) $f_{m-1}(x)$ 有关，与当前的学习器无关。由

fm(x)=fm−1(x)+amGm(x)fm(x)=fm−1(x)+amGm(x) $f_m(x) = f_{m-1}(x)+a_mG_m(x)$ ，我们可以得出

wm,iwm,i $w_{m,i}$ 的另外一种表示：

w m, i = w (m - 1, i) e x p [- y i a m G m (x)]

$w_{m,i} = w_{(m-1,i)} exp[-y_ia_mG_m(x)]$
这也就是样本权重更新的表达式（未归一化）。

现在分析目标函数，首先看 $G_{m}^*(x)$ ，因为 $a_{m}>0$ , $G_{m}(x)=\{-1,1\}$ ，要使目标函数取到最小值，那么必然有：

G * m (x) = a r g min G m \sum i w m i I (y i \neq G m (x i))

$G^*_m(x) = arg\min_{G_m}\sum_i w_{mi}I(y_i \ne G_m(x_i))$
也就是说

G∗m(x)Gm∗(x) $G_{m}^*(x)$ 是第

mm $m$ 步使得样本加权训练误差最小的基分类器。将

G_{m}^{*} (x)

$G_{m}^*(x)$ 带入目标函数有：

\sum i w m i e x p [- y i a m G m (x i)] = \sum y i = G m (x i) w m i e - a m + \sum y i \neq G m (x i) w m i e a m = \sum y i = G m (x i) w m i e - a m + \sum y i \neq G m (x i) w m i e a m + \sum y i \neq G m (x i) w m i e - a m - \sum y i \neq G m (x i) w m i e - a m = e - a m \sum i w m i + (e a m - e - a m) \sum y i \neq G m (x i) w m i

$\begin{aligned} & \ \ \ \sum_i w_{mi}exp[-y_ia_mG_m(x_i)] \\ &= \sum_{y_i = G_m(x_i)}w_{mi}e^{-a_m} + \sum_{y_i \ne G_m(x_i)}w_{mi}e^{a_m} \\ &= \sum_{y_i = G_m(x_i)}w_{mi}e^{-a_m}+ \sum_{y_i \ne G_m(x_i)}w_{mi}e^{a_m} +\sum_{y_i \ne G_m(x_i)}w_{mi}e^{-a_m} - \sum_{y_i \ne G_m(x_i)}w_{mi}e^{-a_m} \\ &=e^{-a_m} \sum_iw_{mi} + (e^{a_m} -e^{-a_m})\sum_{y_i \ne G_m(x_i)}w_{mi} \end{aligned}$
上式对

amam $a_m$ 求导即可，使得倒数为

00 $0$ ，即可得到