AdaBoost

最新推荐文章于 2022-03-02 22:24:03 发布

Hungryof

最新推荐文章于 2022-03-02 22:24:03 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

分类专栏： Old blogs(before 2016) 文章标签： AdaBoost 分类器元算法机器学习分类

本文链接：https://blog.youkuaiyun.com/Hungryof/article/details/50700674

Old blogs(before 2016) 专栏收录该内容

2 篇文章

订阅专栏

AdaBoost是一种迭代算法，通过结合多个弱分类器形成强分类器。它根据训练数据的分类误差率动态调整样本权重，误差率低的分类器在最终分类器中占比更高。每轮迭代中，错误分类的样本权值会被增加，以便后续分类器更关注这些样本。算法包括初始化权值、训练弱分类器、计算分类器权重和更新样本权值等步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

总说

AdaBoost 是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器，即弱分类器，然后把这些弱分类器集合起来，构造一个更强的最终分类器。(很多博客里说的三个臭皮匠赛过诸葛亮)

先说说啥叫强/弱分类器：
弱学习算法—识别错误率小于1/2(即准确率仅比随机猜测略高的学习算法)
强学习算法—识别准确率很高并能在多项式时间内完成的学习算法

算法

正宗算法

(先说明一下，如果看这块有点儿费劲的话，可以看下面“瞎扯算法”，两者思想一样，只是后者更加口头化，容易记住。）
给定一个训练数据集 $T={(x_1,y_1), (x_2,y_2)…(x_N,y_N)}$ ，其中实例 $x \in \mathcal{X}$ ，而实例空间 $\mathcal{X} \subset \mathbb{R}^n$ ，yi属于标记集合{-1,+1}，Adaboost的目的就是从训练数据中学习一系列弱分类器或基本分类器，然后将这些弱分类器组合成一个强分类器。

I. 初始化权值，每个样本的权重相同

D 1 = (w 11, w 12, \dots, w 1 N), w 1 i = 1 N, i = 1, 2, \dots, N

$D_1 = (w_{11},w_{12},\cdots,w_{1N}),w_{1i}=\frac{1}{N},i=1,2,\cdots,N$
II. 进行多轮迭代，用m = 1,2, …, M表示迭代的第多少轮

使用具有权值分布 $D_m$ 的训练数据集学习，得到基本分类器：
$G_m(x):\chi \rightarrow{-1,+1}$
计算 $G_m(x)$ 在训练数据集上的分类误差率：
$ε m = P (G m (x i) \neq y i) = \sum i = 1 N w m i I (G m (x i) \neq y i)$ $\varepsilon_m = P(G_m(x_i)\neq y_i) = \sum_{i=1}^{N}w_{mi}I(G_m(x_i)\neq y_i)$
注意，从这里看出，误差率就是分类错误的样本的权值之和！
得到 $\varepsilon$ 后，再要得到这个分类器占最终分类器的比重 $\alpha$
$α m = 1 2 ln 1 - ε m ε m$ $\alpha_m = \frac{1}{2}\ln \frac{1-\varepsilon_m}{\varepsilon_m}$
注意：可以看出如果误差率小于1/2，那么 $\alpha_m$ 就会大于0，也就是说只有这个分类器能把误差率保证在大于1/2的情况下，才能有 $\alpha$ ,也就是说才能在最终的分类其中占有权重。此外可以看出，误差率越小， $\alpha$ 越大，也就是说越好的分类器在最终的分类器所占的权重越大。
更新样本权值
$D m + 1 = (W m + 1, 1, \dots, W m + 1, N)$ $D_{m+1} = (W_{m+1,1}, \cdots, W_{m+1,N})$
$W m + 1, i = W m i Z m e x p (- α m y i G m (x i))$ $W_{m+1,i}=\frac{W_{mi}}{Z_m}exp(-\alpha_my_iG_m(x_i))$
（我擦，markdown的下标咋这么大啊，不知道咋变小~~，顺便说一下，w的下标标注方式前后有些不一样，为了更好看清，在m+1与数字之间加了逗号。）
其中下面的 $Z_m$ 就是规范化因子。
$Z m = \sum i = 1 N W m i e x p (- α m y i G m (x i))$ $Z_m = \sum_{i=1}^{N}W_{mi}exp(-\alpha_my_iG_m(x_i))$

III.组合所有弱分类器

f (x) = \sum m = 1 M α m G m (x)

$f(x) = \sum_{m=1}^{M}\alpha_mG_m(x)$
最终：、

G (x) = s i g n (f (x)) = s i g n (\sum m = 1 M α m G m (x))

$G(x)=sign(f(x))=sign(\sum_{m=1}^{M}\alpha_mG_m(x))$

瞎扯算法

开始时，让每个样本分配相同的权重。
计算这一轮的 $\varepsilon$ 和 $\alpha$ .
计算 $\varepsilon$ : 只要把分错的权重加起来就行了；
计算 $\alpha$ : 利用上面的公式
上面2个还是很简单的，现在要计算下一轮的权重咋重新分配。好好看看这公式：

$D m + 1 = (W m + 1, 1, \dots, W m + 1, N)$ $D_{m+1} = (W_{m+1,1}, \cdots, W_{m+1,N})$
$W m + 1, i = W m i Z m e x p (- α m y i G m (x i))$ $W_{m+1,i}=\frac{W_{mi}}{Z_m}exp(-\alpha_my_iG_m(x_i))$

可以看出， $W_{m+1,i}$ 是由 $W_{mi}$ 得到的，也就是说第m+1轮的第i个样本的权值是由该样本在上一轮的权值经过变换而来。再看看 $exp(-\alpha_my_iG_m(x_i))$ ，其中 $y_i$ 是标签，而 $G_m(x_i)$ 是通过第m轮的分类器预测的分类。显然： $y_iG_m(x_i)$ 只有1和-1的取值，分别对应分类正确和错误。
为了方便，可以这样，弄出个中间变量 $T_{m+1,i}$
$T_{m+1,i} = W_{mi}exp(-\alpha_my_iG_m(x_i))$

T m + 1, i = {W m i e x p (- α), W m i e x p (α), 如 果 分 类 正 确 如 果 分 类 错 误

$T_{m+1,i} = \begin{cases} W_{mi}exp(-\alpha), & \text{如果分类正确} \\ W_{mi}exp(\alpha), & \text{如果分类错误} \end{cases}$
记忆方法：分错的权值就增大，分对的就减少。即把分错的权值加大。
其实这样就差不多了，但是为了规则化，所以就弄个正规化，除以总的

Tm+1 $T_{m+1}$ 就可以了。

4.. 知道每次权值如何更新的话，然后就不断的做呗，直到达到结束条件( $\varepsilon$ 小于某个给定的值或是循环次数达到上限之类的）
5. 最后再把所有的分类器按照各自的权值 $\alpha_i$ 组合起来就可以。