集成算法之Bagging和Boosting

最新推荐文章于 2025-08-22 16:53:28 发布

原创

最新推荐文章于 2025-08-22 16:53:28 发布 · 780 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#数据挖掘 #机器学习

本文介绍了集成算法中的Bagging和Boosting方法。Bagging通过建立多个独立模型并取平均预测结果，如随机森林；Boosting则依赖地构建模型，通过修正前一个模型的偏差，如Adaboost。Adaboost算法流程包括初始化权重，迭代训练模型并更新权重，最终以加权结果作为预测输出。虽然Adaboost高效，但也存在串行、耗时等缺点。

集成算法，字面意思就是将单一的算法集成到一起。在集成算法中，主要有两种方法，即Bagging和Boosting。简单理解，
Bagging算法： 就是独立地建立多个模型，各个模型之间互不干扰，然后将多个模型预测结果做平均，作为最终预测结果；
Boosting算法： 有序的、依赖的建立多个模型，后一个模型用来修正前一个模型的偏差，以整体模型的预测结果作为最终预测结果。
其实，在sklearn中，这些集成算法都已实现，我们只需简单调用sklearn中的相关模块，并进行调参就可完成数据建模，以Bagging模型为例：

sklarn.ensemble.BaggingClassifier(base_estimator=None,n_estimators=10,max_samples=1.0,max_features=1.0,
bootstrap=True,bootstrap_features=False,oob_score=False,warm_start=False,n_jobs=1,random_state=None,verbose=0)
"""
其中：
base_estimator:基础分类器，即我们选择哪种基础分类器进行bagging；
n_estimators：基础分类器个数，即我们要建立多少个基础分类器记性装袋，默认值为10；
max_samples：样本采集比例，每次建立基础模型，采集多大比例样本，默认值为全部采集；
max_features：特征采集比例，同上；
bootstrap：是否进行又放回抽样；
oob_score：是否使用未抽样数据进行验证，oob：out of bag（袋外数据，需要设置bootstrap=True）
"""

随机森林

随机森林模型是一种典型的Bagging模型算法。随机森林模型使用CART决策树作为弱分类器，随机选择节点上的一部分特征，这个数量为n_sub，然后选择一个最优特征来作为决策树的分裂点。n_sub是我们需要调整的一个主要的参数。
在建立单个模型的时候，随机森林算法和CART决策树一样，具体流程见上篇博客：决策树模型.

Adaboost

Boosting，也称为增强学习或提升法，是一种重要的集成学习技术，能够将预测精度仅比随机猜度略高的弱学习器增强为预测精度高的强学习器，这在直接构造强学习器非常困难的情况下，为学习算法的设计提供了一种有效的新思路和新方法。作为一种元算法框架，Boosting几乎可以应用于所有目前流行的机器学习算法以进一步加强原算法的预测精度，应用十分广泛，产生了极大的影响。而AdaBoost正是其中最成功的代表，被评为数据挖掘十大算法之一。
对adaBoost算法的研究以及应用大多集中于分类问题，同时也出现了一些在回归问题上的应用。就其应用adaBoost系列主要解决了: 两类问题、多类单标签问题、多类多标签问题、大类单标签问题、回归问题。它用全部的训练样本进行学习。