一、总述
集成学习通过构建并结合各个学习器来完成学习任务,以获得比单个学习器更优的性能(核心是每个学习器“好而不同”):先产生一组个体学习器,再用某种策略将它们组合起来。同质(homogeneous)集成:决策树集成,神经网络集成…个体为基学习器,算法为基学习算法。异质(heterogenous)集成:包含不同类型的学习器,个体为组建学习器。
Boosting:个体学习器之间存在强依赖关系、必须串行生成的序列化方法。
Bagging和随机森林:个体学习器之间不存在强依赖关系、可同时生成的并行化方法。
二、Boosting
初始训练出一个基学习器,根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注。基于调整后的样本分布来训练下一个基学习器,如此反复,直到基学习器书目达到预先指定的值。最终,将所有的基学习器进行加权结合。
对特定的数据分布进行学习,降低偏差。
标准的Adaboost只适用于二分类。
Adaboost,基学习器的线性组合

来最小化指数损失函数

三、Bagging
每次从样本中选取m个样本(剩下的可作为验证集),然后放回。这样就得到有交集的T个含m个样本的采样集。然后基于每个采样集训练出一个基学习器,再将这些基学习器进行结合。降低方差。
对于分类任务:使用简单投票(若出现票数相同,随机选一个);对于回归任务:使用简单平均法。
Boosting能用于多分类、多回归任务。
四、Boosting 和 Bagging的对比
4.1 样本选择
Boosting:每一轮的训练集

本文介绍了集成学习的基本概念,包括同质和异质集成,并深入探讨了Boosting、Bagging、随机森林和GBDT。重点讨论了Boosting中的Adaboost算法,以及Bagging的代表随机森林和GBDT的优化策略。XGBoost通过引入正则项、列抽样和并行计算,有效提升了模型性能和效率。
最低0.47元/天 解锁文章
4201

被折叠的 条评论
为什么被折叠?



