自适应增强算法Adaboost——前人栽树后人乘凉-优快云博客

本文链接：https://blog.youkuaiyun.com/weiji123_/article/details/123819807

Adaboost是一种提升型集成学习算法，通过不断强调未正确分类样本的重要性来改进模型。每个弱学习器都建立在前一个的基础上，关注解决之前未能解决的问题。最终通过加权组合所有弱学习器得到一个强大的模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、集成学习中boosting类型最典型的代表

核心理念便是：分工明确，性能提高

二、Adaboost的训练步骤

STEP1：对于训练每个weak learner弱学习器计算样本困难度

STEP2: 学习每个Weak learner的权重

三、SUMMARY总结

还记得上篇文章的随机森林RandomForest吗，今天这篇文章便是很好的解决了其缺点的算法，让我们一起学习吧

一、集成学习中boosting类型最典型的代表

何谓“前人栽树，后人乘凉”呢？

我们可以这样理解

先训练一个学习模型 weak learner 弱学习模型
再对这个模型进行评估，对于这个模型中做对的问题减少对它的注意力，而在模型中做错的问题将加大对它的注意力
在后续的新模型中，更专注于克服前面模型中所不能解决的困难点
最后，将所有的模型整合在一起构成一个大的框架，这个大的框架中就会既有处理简单问题的模型又有处理困难问题的模型。这样使整体性能都有所提高。

核心理念便是：分工明确，性能提高

二、Adaboost的训练步骤

Ensemble Learning集成学习包括随机森林和Adaboost,都是Supervised Learning都可以处理classification和regression任务

Adaboost中的后一个模型的训练永远是在前一个模型的基础上完成的-------->顺序，级联的结构

STEP1：对于训练每个weak learner弱学习器计算样本困难度

初始化所有样本的困难度为 $\large w=\frac{1}{N}$
利用当前weak learner的训练结果更新所有样本的困难度。对于做对的样本减少其困难度，对于做错的样本增加其困难度

$\large w^{new}=\left\{\begin{matrix} \frac{1}{2(1-\varepsilon )}w^{old}\\ \frac{1}{2\varepsilon }w^{old}\\ \varepsilon \end{matrix}\right.$ 表示通过当前learner所产生的错误率

基于当前样本困难度，训练下一个learner(由于在训练第二个样本时，我们已经提高了对错误样本的困难度，所以现在会有部分错误样本被做对）
同上述方法，直至达到了我们提前设置的Adaboost所包含的模型数量的最大值
此时，Adaboost中已经有很多个模型，最后我们需要将这些模型整合成一个整体

STEP2: 学习每个Weak learner的权重

$\large \alpha _{k}=\frac{1}{2}log(\frac{1-\varepsilon _{k}}{\varepsilon _{k}})$

其中 $\large \varepsilon _{k}$ 表示第k个learner的错误率

三、SUMMARY总结

这里给大家总结一下和上一篇文章中的随机森林RandomForest的异同啦~

Adaboost和随机森林RandomForest都是集成学习、以弱搏强

优点：

顺序、级联的结构

随机森林RandomForest	每个Weak Learner间是相互独立的，属于一种并联的结构
自适应增强算法Adaboost	每个Weak Learner都建立在前一个的基础上，关注于解决之前无法解决的问题；模型的整体性能是逐步提高的

利用权重组合结果

随机森林RandomForest	简单粗暴的将每个Weak Learner的输出用均值整合成一个
自适应增强算法Adaboost	充分考虑了每个样本点的权重

$\large \Rightarrow$ 擅长解决困难问题，也就是模型性能的天花板高啦~