Adaboost算法和提升树算法

最新推荐文章于 2024-07-08 17:35:49 发布

原创

最新推荐文章于 2024-07-08 17:35:49 发布 · 537 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#adaboost算法 #机器学习

AdaBoost是一种自适应增强的机器学习算法，通过不断调整训练数据的权重，重点训练先前错误分类的样本，构建一系列弱分类器并组合成强分类器。其核心是前向分步算法，通过优化指数损失函数，每次迭代找到最佳基本分类器Gm(x)。而提升树是AdaBoost的特例，以决策树为基函数，通过拟合残差构建回归或分类树。

AdaBoost，是英文"Adaptive Boosting"（自适应增强），它的自适应在于：前一个基本分类器分错的样本会得到加强，加权后的全体样本再次被用来训练下一个基本分类器。同时，在每一轮中加入一个新的弱分类器，直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数。

AdaBoost算法

输入：训练数据集 $KaTeX parse error: Undefined control sequence: \cal at position 51: …_N)\}, x_i\in \̲c̲a̲l̲ ̲X\sube \R^n$ , 弱学习方法

输出：最终分类器 $G (x)$

步骤：

(1) 初始化训练数据的权值分布 $,w1N),w1i=1N,i=1,2,…,ND_1=(w_{11},\cdots,w_{1i},\cdots,w_{1N}),w_{1i}=\frac{1}{N},i=1,2,\ldots,N$

(2) 对于第m次迭代( $\ldots,M$ )：

(a) 使用具有权值分布 $D_m$ 的训练数据集学习，得到基本的分类器：
$G_m(x):\mathcal X->\{-1,+1\}$

(b) 求 $G_m(x)$ 在训练集上的分类误差率：
$e_m=\sum_{i=1}^{N}P(G_m(x_i)\ne y_i)=\sum_{i=1}^{N}w_{mi}I(G_m(x_i)\ne y_i)$
© 计算 $G_m(x)$ 的系数：
$\alpha_m=\frac{1}{2}log\frac{1-e_m}{e_m}$

(d) 更新训练集的权值分布：
$w_{m+1,i}=\frac{w_{mi}}{Z_m}exp(-\alpha_my_iG_m(x_i))$

其中， $Z_m$ 是规范化因子， $Zm=∑i=1Nwmiexp(−αmyiGm(xi))Z_m=\sum_{i=1}^Nw_{mi}exp(-\alpha_my_iG_m(x_i))$

(3) 构建基本分类器的线性组合：
$f(x)=\sum_{m=1}^M\alpha_mG_m(x)$

(4) 最终分类器:
$G(x)=sign(f(x))=sign(\sum_{m=1}^M\alpha_mG_m(x))$

说明：

步骤（1）假设训练数据具有均匀的权值分布，即每个训练样本在基本分类器的学习中作用相同，这一假设保证第一步能够在原始数据上学习基本分类器 $G_1(x)$ 。

步骤（2）AdaBoost 反复学习基本分类器，在每一轮 $m=1,2…,Mm=1,2\ldots,M$ 顺次执行下列操作：

（a）使用当前分布 $D_m$ 加权的训练数据集，学习基本分类器 $G_m(x)$ 。

（b）计算基本分类器 $G_m(x)$ 在加权训练集上的误分类误差：
$e_m=\sum_{i=1}^{N}w_{mi}I(G_m(x_i)\ne y_i) = \sum_{G_m(x_i) \ne y_i} w_{mi}$
误差率是指被 $G_m(x)$ 误分类样本的权值之和。

（c）计算基本分类器 $G_m(x)$ 的系数 $αm\alpha_m$ 。由：
$\alpha_m=\frac{1}{2}log\frac{1-e_m}{e_m}$
可知，当 $em≤12e_m \leq \frac{1}{2}$ 时， $αm≥0\alpha_m \geq 0$ ，且 $αm\alpha_m$ 随着 $e_m$ 的减小而增大，所以分类误差率越小的基本分类器在最终分类器中的作用越大。