19、集成学习方法：Bagging、随机森林与Boosting技术解析-优快云博客

本文链接：https://blog.youkuaiyun.com/mongodb5scout/article/details/154943922

集成学习方法：Bagging、随机森林与Boosting技术解析

1. Bagging与Pasting方法概述

Bagging（自助聚合）和Pasting是两种有效的集成学习方法，它们的核心思想是通过对训练集进行采样，训练多个预测器，最后将这些预测器的结果进行整合。在Bagging中，采样是有放回的；而在Pasting中，采样是无放回的。

1.1 并行训练优势

预测器可以通过不同的CPU核心甚至不同的服务器进行并行训练，预测过程也能并行执行。这种并行性使得Bagging和Pasting方法具有良好的扩展性，能够高效地处理大规模数据。

1.2 Scikit - Learn中的实现

Scikit - Learn提供了 BaggingClassifier 类（回归任务使用 BaggingRegressor ）来实现Bagging和Pasting。以下是一个训练包含500个决策树分类器的集成模型的示例代码：

from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

bag_clf = BaggingClassifier(
    DecisionTreeClassifier(), n_estimators=500,
    max_samples=100, bootstrap=True, n_jobs=-1)
bag_clf.fit(X_train, y_train)