17、集成学习方法：随机森林、提升法与堆叠法详解

原创于 2025-11-14 11:14:06 发布 · 18 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#随机森林 #Extra-Trees #AdaBoost

机器学习实战精要专栏收录该内容

22 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

集成学习方法：随机森林、提升法与堆叠法详解

在机器学习领域，集成学习是一种强大的技术，它通过组合多个弱学习器来构建一个强大的学习器。本文将详细介绍几种常见的集成学习方法，包括随机森林、Extra-Trees、AdaBoost、梯度提升和堆叠法，并提供相应的代码示例。

1. 随机森林（Random Forests）

随机森林是决策树的集成，通常使用装袋法（bagging）进行训练，一般将 max_samples 设置为训练集的大小。与手动创建 BaggingClassifier 并传入 DecisionTreeClassifier 不同，我们可以直接使用 RandomForestClassifier 类，它更加方便且针对决策树进行了优化。

from sklearn.ensemble import RandomForestClassifier
rnd_clf = RandomForestClassifier(n_estimators=500, max_leaf_nodes=16, n_jobs=-1)
rnd_clf.fit(X_train, y_train)
y_pred_rf = rnd_clf.predict(X_test)

随机森林算法在生长树时引入了额外的随机性，它在分裂节点时从随机特征子集中寻找最佳特征，而不是搜索所有特征。这增加了树的多样性，以较高的偏差换取了较低的方差，通常能得到更好的模型。以下 BaggingClassifier