机器学习集成学习详解：从Adaboost到XGBoost-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_37960402/article/details/88426900

集成学习通过结合多个学习器，通常能获得更好的性能。本文详细介绍了集成学习中的boosting算法，特别是Adaboost、GBDT（Gradient Boosting Decision Tree）、XGBoost，并对比了它们之间的差异。此外，还讨论了随机森林及其与GBDT的比较，以及分类树和回归树的区别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

- 集成学习：
1、boosting算法
2、bagging算法
3、随机森林(Random Forest,RF)
4 问题

集成学习：

最直白的理解：人多力量大

集成学习通过将多个学习器进行结合，从理论上来讲使用弱学习集成可以获得更好的性能。
集成算法的两个主要问题：如何选择若干个体学习器，以及选择何种策略将这些个体学习器集成为一个强学习器。
集成算法的成功在于保证个体学习器的多样性（好而不同），且集成不稳定的算法也能够得到一个比较明显的性能提升。

常见的集成学习有：

        Bagging：训练多个分类器取平均——用于减少方差

        Boosting： 从弱分类器开始加强，新分类器一定更强——用于减少偏差

        Stacking：聚合多个分类和回归模型——用于提升预测结果

在这里插入图片描述

1、boosting算法

boosting算法是一族可将弱分类器提升为强分类器的算法。算法的工作机制类似：先从初始训练集训练出一个基分类器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器分错的样本在后续受到更多的关注，然后基于整理后的样本分布来训练下一个基学习器；反复进行，直至基学习器的数目达到事先指定的值T，最终将这T个基学习器进行加权结合。
Boosting算法包括：Adaboost、GB、GBDT与XGBoost，其中最出名的就是Adaboost