AdaBoost提升方法

原创已于 2024-01-02 12:23:35 修改 · 1.1k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #算法 #深度学习 #数据挖掘

于 2023-12-20 18:25:15 首次发布

机器学习常用算法专栏收录该内容

11 篇文章

订阅专栏

文章介绍了AdaptiveBoosting(AdaBoost)算法，一种通过调整训练样本权重来组合多个弱分类器，以提高总体分类性能的方法。算法通过增大误分类样本的权重，增强后续弱分类器的学习效果。

提升方法的基本思想是通过改变训练样本的权重学习多个分类器，并将这些线性分类器进行线性组合，提高分类性能。

AdaBoost

提高前一轮被分类错误样本的权值，降低前一轮被分类正确的权值；
加大分类误差率小的弱分类器的权值。

算法
输入：训练集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中 $xi∈X⊆Rnx_i\in X \subseteq R^n$ ， $yi∈Y⊆{−1,1}y_i\in Y \subseteq\{-1,1\}$ ；弱学习算法。
输出：最终分类器 $G (n)$ 。

初始化训练数据的权值分布
$D1=(w11,...,w1i,...,w1N),w1i=1ND_1=(w_{11},...,w_{1i},...,w_{1N}),w_1i=\frac{1}{N}$
对 $m = 1, 2, ..., M$
- 使用具有权值分布 $D_m$ 的训练集学习，得到基本分类器：
  $Gm(x):X⟶{−1,1}G_m(x):X\longrightarrow\{-1,1\}$
- 计算 $G_m(x)$ 在训练集上的分类误差率：
  $em=∑i=1NP(Gm(xi)≠yi)=∑i=1NwmiI(Gm(xi)≠yi)=∑Gm(xi)≠yiwmie_m=\sum_{i=1}^{N}P(G_m(x_i)\neq y_i)\\=\sum_{i=1}^{N}w_{mi}I(G_m(x_i)\neq y_i)\\=\sum_{G_m(x_i)\neq y_i}w_{mi}$
- 计算 $G_m(x)$ 的系数：
  $αm=12log1−emem\alpha_{m}=\frac{1}{2}log\frac{1-e_m}{e_m}$
- 更新训练集的权值分布
  $D_{m+1}=(w_{m+1,1},...,w_{m+1,i},...,w_{m+1,N})$
  $wm+1,i=wm,iZmexp(−αmyiGm(xi)),i=1,2,...,N①w_{m+1,i}=\frac{w_{m,i}}{Z_m}exp(-\alpha_{m}y_{i}G_{m}(x_i)),{i=1,2,...,N} \qquad \qquad ①$
  其中 $Z_m$ 是规范化因子
  $Zm=∑i=1Nwm,iexp(−αmyiGm(xi))Z_m=\sum_{i=1}^{N}w_{m,i}exp(-\alpha_{m}y_{i}G_{m}(x_i))$
  它使得 $D_{m+1}$ 成为一个概率分布，即 $∑i=1Nwm,i=1\sum_{i=1}^{N}w_{m,i}=1$ 。
构建基本分类器的线性组合
$f(x)=∑m+1MαmGm(x)f(x)=\sum_{m+1}^{M}\alpha_{m}G_{m}(x)$
得到最终分类器
$G(x)=sign(f(x))=sign(∑m=1MαmGm(x))G(x)=sign(f(x))=sign(\sum_{m=1}^{M}\alpha_{m}G_{m}(x))$
注：式①可写成
$wm+1,i={wm,iZme−αm,Gm(xi)=yiwm,iZmeαm,Gm(xi)≠yiw_{m+1,i}=\left\{\begin{aligned}\frac{w_{m,i}}{Z_m}e^{-\alpha_m},G_{m}(x_i)=y_i\\\frac{w_{m,i}}{Z_m}e^{\alpha_m},G_{m}(x_i)\neq y_i\\\end{aligned} \right.$
可知误分类样本在每一轮学习后权重会被放大 $e2αm=1−ememe^{2\alpha_m}=\frac{1-e_m}{e_m}$ 倍，系数 $αm\alpha_m$ 表示分类器 $G_m(x)$ 的重要性，所有 $αm\alpha_m$ 之和并不等于1。