集成学习（ensemble learning）

最新推荐文章于 2025-09-30 16:08:51 发布

原创

最新推荐文章于 2025-09-30 16:08:51 发布 · 552 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

本文介绍了集成学习的基本概念，包括同质和异质集成，并深入探讨了Boosting、Bagging、随机森林和GBDT。重点讨论了Boosting中的Adaboost算法，以及Bagging的代表随机森林和GBDT的优化策略。XGBoost通过引入正则项、列抽样和并行计算，有效提升了模型性能和效率。

一、总述
集成学习通过构建并结合各个学习器来完成学习任务，以获得比单个学习器更优的性能（核心是每个学习器“好而不同”）：先产生一组个体学习器，再用某种策略将它们组合起来。同质（homogeneous）集成：决策树集成，神经网络集成…个体为基学习器，算法为基学习算法。异质（heterogenous）集成：包含不同类型的学习器，个体为组建学习器。
Boosting：个体学习器之间存在强依赖关系、必须串行生成的序列化方法。
Bagging和随机森林：个体学习器之间不存在强依赖关系、可同时生成的并行化方法。

二、Boosting
初始训练出一个基学习器，根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注。基于调整后的样本分布来训练下一个基学习器，如此反复，直到基学习器书目达到预先指定的值。最终，将所有的基学习器进行加权结合。
对特定的数据分布进行学习，降低偏差。
标准的Adaboost只适用于二分类。
Adaboost，基学习器的线性组合
在这里插入图片描述
来最小化指数损失函数

三、Bagging
每次从样本中选取m个样本（剩下的可作为验证集），然后放回。这样就得到有交集的T个含m个样本的采样集。然后基于每个采样集训练出一个基学习器，再将这些基学习器进行结合。降低方差。
对于分类任务：使用简单投票（若出现票数相同，随机选一个）；对于回归任务：使用简单平均法。
Boosting能用于多分类、多回归任务。

四、Boosting 和 Bagging的对比

4.1 样本选择
Boosting:每一轮的训练集