Scikit-learn集成学习入门：Bagging与Boosting实践

原创已于 2025-09-04 14:12:10 修改 · 467 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#集成学习 #scikit-learn #boosting #人工智能 #python

于 2025-09-04 14:10:03 首次发布

集成学习：Scikit-learn中的Bagging与Boosting

学习目标

本课程将深入探讨集成学习的基本概念，重点讲解如何使用Scikit-learn库实现Bagging和Boosting两种集成方法，通过实践操作提升模型的预测性能。

学习内容

1 Scikit-learn集成学习

1.1 集成学习基础

集成学习是一种通过构建并结合多个学习器来完成学习任务的方法。与传统的单一模型相比，集成学习能够显著提高模型的稳定性和预测性能。集成学习的基本思想是“三个臭皮匠顶个诸葛亮”，即通过多个模型的组合来达到比单个模型更好的效果。在集成学习中，根据学习器的生成方式，可以分为两大类：序列化方法和并行化方法。序列化方法中，每个学习器的生成依赖于前一个学习器，而并行化方法中，所有学习器的生成是相互独立的。

在实际应用中，集成学习能够有效解决过拟合问题，提高模型的泛化能力。例如，在处理不平衡数据集时，集成学习可以通过调整不同学习器的权重来改善模型对少数类的预测性能。此外，集成学习还能够处理高维数据，通过多个模型的组合来降低特征选择的难度。

1.2 Bagging方法

Bagging（Bootstrap Aggregating）是一种并行化的集成学习方法，其核心思想是通过自助法（Bootstrap）从原始数据集中抽取多个子样本，然后在每个子样本上训练一个学习器，最后将这些学习器的预测结果进行汇总，得到最终的预测结果。Bagging方法能够有效减少模型的方差，提高模型的稳定性。

在Scikit-learn中，BaggingClassifier和BaggingRegressor是实现Bagging方法的两个主要类。下面通过一个简单的例子来演示如何使用BaggingClassifier来提高分类模型的性能。

%pip install scikit-learn

from sklearn.ensemble import BaggingClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 定义基础分类器
base_classifier = DecisionTreeClassifier()

# 定义Bagging分类器
bagging_classifier = BaggingClassifier(estimator=base_classifier, n_estimators=10, random_state=42)

# 训练模型
bagging_classifier.fit(X_train, y_train)

# 预测
y_pred = bagging_classifier.predict(X_test)

# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print(f"Bagging分类器的准确率: {accuracy:.2f}")

Bagging分类器的准确率: 1.00

注意：在 scikit-learn 0.22 版本之后，BaggingClassifier的参数名称发生了变化，base_estimator参数被重命名为estimator。根据自己的版本修改参数，否则可能会出现 "unexpected keyword argument" 的错误。下同

在这个例子中，我们使用了决策树作为基础分类器，并通过Bagging方法构建了10个决策树模型。通过对比单个决策树模型和Bagging模型的性能，可以明显看到Bagging方法在提高模型稳定性方面的优势。

1.3 Boosting方法

Boosting是一种序列化的集成学习方法，其核心思想是通过迭代的方式逐步构建学习器，每个新的学习器都重点关注前一个学习器预测错误的样本。Boosting方法能够有效减少模型的偏差，提高模型的预测性能。

在Scikit-learn中，AdaBoostClassifier和AdaBoostRegressor是实现AdaBoost算法的两个主要类。AdaBoost（Adaptive Boosting）是Boosting方法中最著名的算法之一，它通过调整每个样本的权重来实现对错误样本的重视。下面通过一个简单的例子来演示如何使用AdaBoostClassifier来提高分类模型的性能。

from sklearn.ensemble import AdaBoostClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 定义基础分类器
base_classifier = DecisionTreeClassifier(max_depth=1)

# 定义AdaBoost分类器
adaboost_classifier = AdaBoostClassifier(estimator=base_classifier, n_estimators=50, random_state=42)

# 训练模型
adaboost_classifier.fit(X_train, y_train)

# 预测
y_pred = adaboost_classifier.predict(X_test)

# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print(f"AdaBoost分类器的准确率: {accuracy:.2f}")