集成学习方法（ensemble learning）（二）

最新推荐文章于 2025-06-21 08:00:00 发布

原创

最新推荐文章于 2025-06-21 08:00:00 发布 · 776 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#sklearn #ensemble-learning #机器学习

本文介绍了集成学习中的随机森林和极限随机树算法。随机森林在构建时采用有放回抽样和随机选择特征，而极限随机树进一步增强了随机性，选择特征的随机子集并随机设定分割点。参数如n_estimators和max_features对模型性能有显著影响，可通过交叉验证优化。此外，随机森林支持并行化构建和预测，以及评估特征重要性。RandomTreesEmbedding则提供了一种无监督的数据转换方法，将数据编码为森林中叶子节点的索引，适用于密度估计和其他学习任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

由随机数组成的森林

**
sklearn.ensemble 模块包含两个基于随机决策树的平均算法： RandomForest 算法和 Extra-Trees 算法。这两种算法都是专门为树而设计的扰动和组合技术（perturb-and-combine techniques）。这种技术通过在分类器构造过程中引入随机性来创建一组不同的分类器。集成分类器的预测结果就是单个分类器预测结果的平均值。
与其他分类器一样，森林分类器必须拟合（fit）两个数组：保存训练样本的数组（或稀疏或稠密的）X，大小为 [n_samples, n_features]，和保存训练样本目标值（类标签）的数组 Y，大小为 [n_samples]:

>>> from sklearn.ensemble import RandomForestClassifier
>>> X = [[0, 0], [1, 1]]
>>> Y = [0, 1]
>>> clf = RandomForestClassifier(n_estimators=10)
>>> clf = clf.fit(X, Y)

同决策树一样，随机森林算法（forests of trees）也能用来解决多输出问题 （如果 Y 的大小是 [n_samples, n_outputs]) ）

1. 随机森林
在随机森林中（参见 RandomForestClassifier 和 RandomForestRegressor 类），集成模型中的每棵树构建时的样本都是由训练集经过有放回抽样得来的（例如，