第8章 AdaBoost算法_adaboost算法输入与输出-优快云博客

本文探讨了Bagging和Boosting两种集成学习方法的区别，包括它们在样本选择、样例权重、预测函数及并行计算方面的不同。进一步介绍了AdaBoost算法的具体流程，并详细解释了前向分布算法和提升树的概念及其在回归问题中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Bagging和Boosting的区别

1）样本选择上：

Bagging：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的.

Boosting：每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化.而权值是根据上一轮的分类结果进行调整.

2）样例权重：

Bagging：使用均匀取样，每个样例的权重相等

Boosting：根据错误率不断调整样例的权值，错误率越大则权重越大.

3）预测函数：

Bagging：所有预测函数的权重相等.

Boosting：每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重.

4）并行计算：

Bagging：各个预测函数可以并行生成

Boosting：各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果

AdaBoost算法

算法1（AdaBoost）
输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中 $x_i\in \chi \subseteq R^n$ ， $y_i \in y=\{-1,+1\}$ ；弱学习算法；
输出：最终分类器 $G(x)$ 。
（1）初始化训练数据的权值分布

D 1 = (w 11, . . ., w 1 i, . . ., w 1 N) ， w 1 i = 1 N, I = 1, 2, . . ., N

$D_1=(w_{11},...,w_{1i},...,w_{1N})，w_{1i}=\frac{1}{N},I=1,2,...,N$
（2）对

m=1,2,...,Mm=1,2,...,M $m=1,2,...,M$
（a）使用具有权值分布

DmDm $D_m$ 的训练数据集学习，得到基本分类器

G m (x) : χ \to {- 1, + 1}

$G_m(x):\chi \to \{-1,+1\}$
（b）计算

Gm(x)Gm(x) $G_m(x)$ 在训练数据集上的分类误差率

e m = P (G m (x i) \neq y i) = \sum i = 1 N w m i I (G m (x i) \neq y i) (1)

$e_m=P(G_m(x_i) \ne y_i)=\sum_{i=1}^Nw_{mi}I(G_m(x_i) \ne y_i) \tag{1}$
（c）计算

Gm(x)Gm(x) $G_m(x)$ 的系数

α m = 1 2 log 1 - e m e m (2)

$\alpha_m = \frac{1}{2}\log \frac{1-e_m}{e_m} \tag{2}$ 这里的对数是自然对数。
（d）更新训练数据集的权值分布

D m + 1 = (w m + 1, 1, . . ., w m + 1, i, w m + 1, N) (3)

$D_{m+1}=(w_{m+1,1},...,w_{m+1,i},w_{m+1,N}) \tag{3}$

w m + 1, i = w m , i Z m exp (- α m y i G m (x i)) (4)

$w_{m+1,i}=\frac{w_{m,i}}{Z_m}\exp(-\alpha_my_iG_m(x_i)) \tag{4}$ 这里，

ZmZm $Z_m$ 是规划化因子

Z m = \sum i = 1 N w m, 1 exp (- α m y i G m (x i)) (5)

$Z_m = \sum_{i=1}^N w_{m,1}\exp(-\alpha_my_iG_m(x_i)) \tag{5}$ 它使

Dm+1Dm+1 $D_{m+1}$ 成为一个概率分布。
（3）构建基本分类器的线性组合

f (x) = \sum m = 1 M α m G m (x) (6)

$f(x)=\sum_{m=1}^M\alpha_mG_m(x) \tag{6}$ 得到最终分类器

G (x) = s i g n (f (x)) = s i g n (\sum m = 1 M α m G m (x)) (7)

$G(x)=sign(f(x))=sign\left(\sum_{m=1}^M\alpha_mG_m(x)\right)\tag{7}$
定理8.1 （AdaBoost的训练误差界） AdaBoost算法最终分类器的训练误差界为

1 N \sum i = 1 N I (G (x i) \neq y i) \leq 1 N \sum i exp (- y i f (x i)) = \prod m Z m (9)

$\frac{1}{N}\sum_{i=1}^{N}I(G(x_i) \ne y_i) \leq \frac{1}{N} \sum{i}\exp(-y_if(x_i))=\prod_{m}Z_m \tag{9}$ 这里，

G(x),f(x)G(x),f(x) $G(x),f(x)$ 和

ZmZm $Z_m$ 分别由式（7），（6），（5）给出。

前向分布算法

算法2（前向分布算法）
输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ；损失函数 $L(y,f(x))$ ；基函数集 ${b(x;\gamma)}$ ；
输出：加法模型 $f(x)$
（1）初始化 $f_0(x)=0$
（2）对 $m=1,2,...,M$
（a）极小化损失函数

(β m, γ m) = a r g min β, γ \sum i = 1 N L (y i, f m - 1 (x i) + β b (x i; γ)) (10)

$(\beta_m,\gamma_m)=arg\min_{\beta,\gamma}\sum_{i=1}{N}L(y_i,f_{m-1}(x_i)+\beta b(x_i;\gamma)) \tag{10}$ 得到参数

βm,γmβm,γm $\beta_m,\gamma_m$
（b）更新

f m (x) = f m - 1 (x) + β m b (x; γ m) (11)

$f_m(x)=f_{m-1}(x)+\beta_mb(x;\gamma_m) \tag{11}$
（3）得到加法模型

f (x) = f M (x) = \sum m = 1 M β m b (x; γ m) (12)

$f(x)=f_M(x)=\sum_{m=1}^M\beta_mb(x;\gamma_m) \tag{12}$
这样，前向分步算法将同时求解从

m=1m=1 $m=1$ 到

MM $M$ 所有参数

β_{m}, γ_{m}

$\beta_m,\gamma_m$ 的优化问题简化为逐次求解各个

βm,γmβm,γm $\beta_m,\gamma_m$ 的优化问题.

提升树

提升树是以分类树或回归树为基本分类器的提升方法。

提升树模型

提升方法实际采用加法模型（即基函数的线性组合）与前向分步算法。以决策树为基函数的提升方法称为提升树（boosting tree）。对分类问题决策树是二叉分类树，对回归问题决策树是二叉回归树。提升树模型可以表示为决策树的加法模型：

f M (x) = \sum m = 1 M T (x; Θ m) (13)

$f_M(x)=\sum_{m=1}^MT(x;\Theta_m) \tag{13}$ 其中，

T(x;Θm)T(x;Θm) $T(x;\Theta_m)$ 表示决策树；

ΘmΘm $\Theta_m$ 为决策树的参数；

MM $M$ 为树的个数。
算法3 （回归问题的提升树算法）
输入：训练数据集

T = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{N}, y_{N})}

$T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中

xi∈χ⊆Rnxi∈χ⊆Rn $x_i\in \chi \subseteq R^n$ ，

yi∈y⊆Ryi∈y⊆R $y_i \in y\subseteq R$ ；
输出：提升树

fM(x)fM(x) $f_M(x)$
（1）初始化

f0(x)=0f0(x)=0 $f_0(x)=0$
（2）对

m=1,2,...,Mm=1,2,...,M $m=1,2,...,M$
（a）计算残差

r m i = y i - f m - 1 (x i), i = 1, 2, . . ., N

$r_{mi}=y_i-f_{m-1}(x_i),i=1,2,...,N$
（b）拟合残差

r m i

$r_{mi}$ 学习一个回归树，得到

T(x,Θm)T(x,Θm) $T(x,\Theta_m)$
（c）更新

fm(x)=fm−1(x)+T(x;Θm)fm(x)=fm−1(x)+T(x;Θm) $f_m(x)=f_{m-1}(x)+T(x;\Theta_m)$
（3）得到回归问题提升树

f M (x) = \sum m = 1 M T (x; Θ m)

$f_M(x)=\sum_{m=1}^MT(x;\Theta_m)$

梯度提升

提升树利用加法模型与前向分步算法实现学习的优化过程。当损失函数是平方损失和指数损失函数时，每一步优化是很简单的，但对于一般损失函数而言，可以利用梯度提升算法（gradient boosting）。这是利用最速下降法的近似方法，其关键是利用损失函数的负梯度在当前模型的值

- [\partial L ( y , f ( x i ) ) \partial f ( x i )] f (x) = f m - 1 (x)

$-\left[\frac{\partial L(y,f(x_i))}{\partial f(x_i)}\right]_{f(x)=f_{m-1}(x)}$ 作为回归问题提升树算法中的残差的近似值，拟合一个回归树。
算法4（梯度提升算法）
输入：训练数据集

T={(x1,y1),(x2,y2),...,(xN,yN)}T={(x1,y1),(x2,y2),...,(xN,yN)} $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中

xi∈χ⊆Rnxi∈χ⊆Rn $x_i\in \chi \subseteq R^n$ ，

yi∈y⊆Ryi∈y⊆R $y_i \in y\subseteq R$ ；损失函数L(y,f(x))；
输出：回归树

f^(x)f^(x) $\hat f(x)$ .
(1) 初始化

f 0 (x) = a r g min c \sum i = 1 N L (y i, c)

$f_0(x)=arg \min_c \sum_{i=1}^{N}L(y_i,c)$
(2)对

m=1,2,...,Mm=1,2,...,M $m=1,2,...,M$
(a)对

i=1,2,...,Ni=1,2,...,N $i=1,2,...,N$ ，计算

r m i = - [\partial L ( y , f ( x i ) ) \partial f ( x i )] f (x) = f m - 1 (x)

$r_{mi}=-\left[\frac{\partial L(y,f(x_i))}{\partial f(x_i)}\right]_{f(x)=f_{m-1}(x)}$
(b)对

rmirmi $r_{mi}$ 拟合一个回归树，得到第

mm $m$ 颗树的叶结点区域

R_{m j}, j = 1, 2, . . ., J

$R_{mj},j=1,2,...,J$
(c)对

j=1,2,...,Jj=1,2,...,J $j=1,2,...,J$ ，计算

c m j = a r g min c \sum x i \in R m j L (y i, f m - 1 (x i) + c)

$c_{mj}=arg\min_c\sum_{x_i \in R_{mj}}L(y_i,f_{m-1}(x_i)+c)$
(d)更新

fm(x)=fm−1(x)+∑Jj=1cmjI(X∈Rmj)fm(x)=fm−1(x)+∑j=1JcmjI(X∈Rmj) $f_m(x)=f_{m-1}(x)+\sum_{j=1}^J c_{mj}I(X \in R_{mj})$
(3)得到回归树

f^(x) = f M (x) = \sum m = 1 M \sum j = 1 J c m j I (X \in R m j)

$\hat f(x)=f_M(x)=\sum_{m=1}^M\sum_{j=1}^J c_{mj}I(X \in R_{mj})$
算法第1步初始化，估计使损失函数极小化的常数值，它是只有一个根结点的树。第2（a）步计算损失函数的负梯度在当前模型的值，将它作为残差的估计。对于平方损失函数，它就是通常所说的残差；对于一般损失函数，它就是残差的近似值。第2(b)估计回归树叶结点区域，以拟合残差的近似值。第2(c)步更新回归树。第3步得到输出的最终模型

f^(x)f^(x) $\hat f(x)$