Adaboost

最新推荐文章于 2024-10-30 13:14:25 发布

原创最新推荐文章于 2024-10-30 13:14:25 发布 · 1.3k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#machine-learning

machine learning 专栏收录该内容

21 篇文章

订阅专栏

本文详细解析了Adaboost算法的工作原理，通过数学推导展示了其如何利用指数损失函数进行前向分步加法建模，并说明了Adaboost算法在每次迭代中如何更新基分类器权重和样本权重。

Adaboost是集成学习中最常用的算法之一。该算法是损失函数为指数损失的前向分步加法模型。下面是这一结论的证明过程。

10.3 Forward Stagewise Additive Modeling

Initialize $f_0(x)$ = 0

2.For m =1 to M

a Compute

$(β m, γ m) = a r g m i n β, γ \sum i - 1 N L (y i, f m - 1 (x i) + β b (x i; γ))$ $(\beta_m,\gamma_m)= arg \mathop{min}_{\beta, \gamma}\sum_{i-1}^N L(y_i,f_{m-1}(x_i)+\beta b(x_i;\gamma))$
b set $f_m(x)=f_{m-1}(x)+\beta_m b(x;\gamma_m)$

该算法在每次迭代 $m$ 中求解最优的基函数(basis function) $b(x;\gamma_m)$ 和对应的参数 $\beta_m$ 加到当前的函数 $f_{m-1}(x)$ 中，这样就生成了 $f_m(x)$ 。前面的函数的权重不会被改变。

对于平方损失函数

L (y, f (x)) = (y - f (x)) 2

$L(y,f(x))=(y-f(x))^2$

L (y i, f m - 1 (x i) + β b (x i; γ)) = (y i - f m - 1 (x i) - β b (x i; γ)) 2 = (γ i m - β b (x i; γ)) 2

$L(y_i,f_{m-1}(x_i)+\beta b(x_i;\gamma) ) = ( y_i - f_{m-1}(x_i) - \beta b(x_i;\gamma) )^2=(\gamma_{im} - \beta b(x_i; \gamma) )^2$
其中，

γim=yi−fm−1(xi) $\gamma_{im}=y_i-f_{m-1}(x_i)$ 就是当前模型在第i个样本上的残差。因此，对于平方损失函数来说，在每次迭代中拟合当前残差的最优的

βb(xi;γ) $\beta b(x_i; \gamma)$ 加入到expansion 中。

10.4 Exponential Loss and Adaboost

Adaboost 算法

1.Initialize the observation weights $w_i =1/N, i=1,2,...,N$
2.For m =1 to M

a Fit a classifier $G_m(x)$ to the training data using weights $w_i$
b Compute

$e r r m = \sum N i = 1 w i I ( y i \neq G m ( x i ) ) \sum N i = 1 w i$ $err_m = \frac { \sum_{i=1}^N w_i I(y_i \ne G_m(x_i)) } { \sum_{i=1}^N w_i}$
c Compute $\alpha_m = log((1-err_m)/err_m)$
d set $w_i \to w_i exp[\alpha_m I(y_i \mathrel{{=}\llap{/\,}}G_m(x_i)) ]$

该算法等价于使用指数损失函数的前向分步加法模型（forward stagewise additive modeling)

L (y, f (x)) = e x p (- y f (x))

$L(y,f(x))=exp(-yf(x))$

对于adaboost来说基函数是分类器 $G_m(x) \in \{-1,1\}$ ,使用指数损失，必须先解决如下问题

(β m, G m) = a r g min β, G \sum i = 1 N e x p [- y i (f m - 1 (x i) + β G (x i))]

$(\beta_m, G_m)=arg \min\limits_{\beta,G}\sum_{i=1}^Nexp[-y_i(f_{m-1}(x_i)+\beta G(x_i)) ]$
即每次迭代时生成的分类器和对应的权重，该问题等价于

(β m, G m) = a r g min β, G \sum i = 1 N w (m) i e x p (- β y i G (x i)) (10.9)

$(\beta_m, G_m)=arg \min\limits_{\beta,G}\sum_{i=1}^N w_i^{(m)} exp(-\beta y_i G(x_i) ) \tag{10.9}$
其中,

w(m)i=exp(−yifm−1(xi)) $w_i^{(m)}=exp(-y_if_{m-1}(x_i))$ .因为

w(m)i $w_i^{(m)}$ 既不依赖

β $\beta$ 又不依赖

G(x) $G(x)$ ，它可以看做每个样本的权重。由于该权重依赖于

fm−1(xi) $f_{m-1}(x_i)$ ,所以样本权重在每次迭代时都会变化。

10.分两步解决。
首先，先求 $G_m(x)$ . 对于任何 $\beta > 0$ ,10.9中的 $G_m(x)$ 为：

G m = a r g min G \sum i = 1 N w (m) i I (y i \neq G m (x i))

$G_m= arg \min\limits_{G}\sum_{i=1}^N w_i^{(m)} I(y_i \ne G_m(x_i))$
即最小化加权错误率的分类器(weighted error rate ).这样10.9可以表示为：

\sum i = 1 N w (m) i e x p (- β y i G (x i)) = e - β \sum y i = G (x i) w (m) i + e β \sum y i \neq G (x i) w (m) i

$\begin{align} \sum_{i=1}^N w_i^{(m)} exp(-\beta y_i G(x_i) ) = e^{-\beta} \mathop{\sum}_{y_i=G(x_i)} w_i^{(m)} +e^{\beta} \mathop{\sum}_{y_i \ne G(x_i)} w_i^{(m)} \end{align}$
可以表示为：

e - β \sum i N w (m) i - e - β \sum y i \neq G (x i) w (m) i + e β \sum y i \neq G (x i) w (m) i

$e^{-\beta} \sum_i^N w_i^{(m)} - e^{-\beta} \mathop{\sum}_{y_i\ne G(x_i)} w_i^{(m)} + e^{\beta} \mathop{\sum}_{y_i \ne G(x_i)} w_i^{(m)}$
即

(e β - e - β) \sum i = 1 N w (m) i I (y i \neq G (x i)) + e - β \sum i = 1 N w (m) i

$(e^\beta - e^{-\beta}) \sum_{i=1}^N w_i^{(m)}I(y_i \ne G(x_i) ) + e^{-\beta} \sum_{i=1}^Nw_i^{(m)}$
将

Gm $G_m$ 带入上式，对

β $\beta$ 求导，并令导数为0，即

(e β - e - β) \sum i = 1 N w (m) i I (y i \neq G (x i)) - e - β \sum i = 1 N w (m) i = 0

$(e^\beta-e^{-\beta} )\sum_{i=1}^N w_i^{(m)}I(y_i \ne G(x_i) ) -e^{-\beta} \sum_{i=1}^Nw_i^{(m)} =0$
两边同时除以

e−β $e^{-\beta}$

(e 2 β - 1) \sum i = 1 N w (m) i I (y i \neq G (x i)) - \sum i = 1 N w (m) i = 0

$(e^{2\beta}-1 )\sum_{i=1}^N w_i^{(m)}I(y_i \ne G(x_i) ) -\sum_{i=1}^Nw_i^{(m)} =0$

e 2 β - 1 = \sum N i = 1 w ( m ) i \sum N i = 1 w ( m ) i I ( y i \neq G ( x i ) )

$e^{2\beta}-1 =\frac{\sum_{i=1}^Nw_i^{(m)}}{\sum_{i=1}^N w_i^{(m)}I(y_i \ne G(x_i) ) }$

e 2 β = \sum N i = 1 w ( m ) i \sum N i = 1 w ( m ) i I ( y i \neq G ( x i ) ) - 1

$\begin{align} e^{2\beta}&=\frac{\sum_{i=1}^Nw_i^{(m)}}{\sum_{i=1}^N w_i^{(m)}I(y_i \ne G(x_i) ) }-1 \\ \end{align}$

β = 1 / 2 l o g (\sum N i = 1 w ( m ) i \sum N i = 1 w ( m ) i I ( y i \neq G ( x i ) ) - 1)

$\beta=1/2 log(\frac{\sum_{i=1}^Nw_i^{(m)}}{\sum_{i=1}^N w_i^{(m)}I(y_i \ne G(x_i) ) }-1 )$
根据Adaboost算法中的定义:

e r r m = \sum N i = 1 w i I ( y i \neq G m ( x i ) ) \sum N i = 1 w i

$err_m = \frac { \sum_{i=1}^N w_i I(y_i \ne G_m(x_i)) } { \sum_{i=1}^N w_i}$
可以看到

β = 1 / 2 l o g (1 e r r m - 1)

$\beta=1/2log(\frac{1}{err_m} -1 )$

αm=2βm $\alpha_m=2\beta_m$ 跟Adaboost算法中的c步中的基分类器的权重定义是相同的。

然后有

f m (x) = f m - 1 (x) + β m G m (x)

$f_m(x)=f_{m-1}(x)+\beta_mG_m(x)$

根据w的定义 $w_i^{(m)}=exp(-y_if_{m-1}(x_i))$ .可以得到

w (m + 1) i = e x p (- y i f m (x i)) = e x p (- y i (f m - 1 (x i) + β m G m (x i))) = e x p (- y i f m - 1 (x i) - y i β m G m (x i))) = e x p (- y i f m - 1 (x i)) e x p (- y i β m G m (x i)) = w (m) i e x p (- y i β m G m (x i))

$\begin{align} w_i^{(m+1)}&=exp(-y_if_m(x_i)) \\ &=exp(-y_i (f_{m-1}(x_i)+\beta_mG_m(x_i) )) \\ &=exp(-y_if_{m-1}(x_i)-y_i\beta_mG_m(x_i)) ) \\ &=exp(-y_if_{m-1}(x_i)) exp(-y_i\beta_mG_m(x_i)) \\ &=w_i^{(m)}exp(-y_i\beta_m G_m(x_i)) \end{align}$

根据 $-y_iG_m(x_i)=2I(y_i \ne G_m(x_i)) -1$ 上式变成：