AdaBoost算法原理及实现

最新推荐文章于 2025-07-01 18:34:01 发布

原创

最新推荐文章于 2025-07-01 18:34:01 发布 · 1.5k 阅读

5 ·

CC 4.0 BY-SA版权

本文介绍了AdaBoost算法的基本原理，包括其初始化的权值分布、通过加法模型和前向分步算法来最小化指数损失函数的过程。重点讨论了前向分步算法及其与AdaBoost的关系，并详细阐述了AdaBoost的实现细节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

AdaBoost算法

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\}$ ，其中 $x_i\in \mathcal{X} \subseteq \mathbb{R}^n$ ， $y_i \in \{-1,+1\}$ ；弱学习算法；
输出：最终分类器 $G(x)$
（1）初始化训练数据集的权值分布。我们假设训练数据集具有均匀的权值分布，也就是说每个训练样本在基分类器的学习中作用相同。

D (1) = (w (1) 1, w (1) 2, \dots, w (1) N), w (1) i = 1 N, i = 1, 2, \dots, N

$D^{(1)} = (w^{(1)}_1,w^{(1)}_2,\dots,w^{(1)}_N),w^{(1)}_i=\frac{1}{N},i=1,2,\dots,N$
每个w的上标表示当前迭代次数，与D的下标保持一致；w的下标表示第几个权值，与位置保持一致。
（2）对

m=1,2,…,Mm=1,2,…,M $m=1,2,\dots,M$ （M表示迭代次数，每迭代一次产生一个基学习器，最终生成

MM $M$ 个学习器）
（a）使用具有权值分布

D_{m}

$D_m$ 的训练数据集学习，得到基分类器

G m (x) : X \to {- 1, + 1}

$G_m(x):\mathcal{X}\rightarrow \{-1,+1\}$
（b）计算

Gm(x)Gm(x) $G_m(x)$ 在训练数据集上的分类误差

e r r m = P (G m (x i) \neq y i) = \sum i = 1 N w (m) i I (G m (x i) \neq y i)

$err_m = P(G_m(x_i) \neq y_i) = \sum_{i=1}^{N}w^{(m)}_iI(G_m(x_i)\neq y_i)$
这里，

w(m)iwi(m) $w^{(m)}_i$ 表示第

mm $m$ 轮迭代中第

i

$i$ 个实例的权值，

∑Ni=1w(m)i=1∑i=1Nwi(m)=1 $\sum_{i=1}^N w^{(m)}_i = 1$ 。这说明

Gm(x)Gm(x) $G_m(x)$ 在带权重的训练数据集上的分类误差是被

Gm(x)Gm(x) $G_m(x)$ 误分类样本的权值之和。
（c）计算

Gm(x)Gm(x) $G_m(x)$ 的系数

αmαm $\alpha_m$

α m = 1 2 ln 1 - e r r m e r r m

$\alpha_m = \frac{1}{2} \ln \frac{1-err_m}{err_m}$

αmαm $\alpha_m$ 表示

Gm(x)Gm(x) $G_m(x)$ 在最终分类器中的重要程度。当

errm≤12errm≤12 $err_m \leq \frac{1}{2}$ 时，

αm≥0αm≥0 $\alpha_m \geq 0$ ，且

αα $\alpha$ 随着

errmerrm $err_m$ 的减小而增大，也就是说，分类误差越小的基分类器在最终分类器中的权重越大。
（d）更新训练数据集的权值分布，为下一轮迭代做准备

D (m + 1) = (w (m + 1) 1, w (m + 1) 2, \dots, w (m + 1) N) w (m + 1) i = w ( m ) i Z m exp (- α m y i G m (x i))

$D^{(m+1)} = (w^{(m+1)}_1,w^{(m+1)}_2,\dots,w^{(m+1)}_N)\\ w^{(m+1)}_i = \frac{w^{(m)}_i}{Z_m}\exp(-\alpha_m y_i G_m(x_i))$
上面的式子可以写成

w (m + 1) i = ⎧ ⎩ ⎨ ⎪ ⎪ w ( m ) i Z m e - α m, G m (x i) = y i w ( m ) i Z m e α m, G m (x i) \neq y i

$w^{(m+1)}_i=\left\{\begin{matrix} \frac{w^{(m)}_i}{Z_m} e^{-\alpha_m},G_m(x_i) = y_i\\ \frac{w^{(m)}_i}{Z_m}e^{\alpha_m},G_m(x_i)\neq y_i \end{matrix}\right.$
其中，

ZmZm $Z_m$ 是规范化因子，它的存在保持了

Dm+1Dm+1 $D_{m+1}$ 是一个概率分布