sklearn源码解析：ensemble模型零碎记录；如何看sklearn代码，以tree的feature_importance为例

最新推荐文章于 2024-03-06 13:51:35 发布

原创

最新推荐文章于 2024-03-06 13:51:35 发布 · 2.4w 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#sklearn源码解析 #ensemble模型 #如何看sklearn代码 #sklearn #feature_importance源码

本文详细解析了sklearn的ensemble模型，包括随机森林和GBDT。讨论了模型的实现细节，如RandomForest的bootstrap采样、GBDT的训练过程，以及特征重要性的计算。强调了bootstrap、特征采样、最大深度和学习率的交互作用，并指出在GBDT中，特征重要性基于节点的样本数量和减少的不纯度来计算。同时，对比了两种树构建策略——深度优先和最佳优先，分析了它们对模型的影响。

最近看sklearn的源码比较多，好记性不如烂笔头啊，还是记一下吧。

整体：

）实现的代码非常好，模块化、多继承等写的很清楚。

）predict功能通常在该模型的直接类中实现，fit通常在继承的类中实现，方便不同的子类共同引用。

随机森林和 GBDT

）RandomForest的bootstrap是又放回的；GBDT则是无放回的。

）实现的代码非常好，比如GBDT提供了一些小白不常用的函数【staged_decision_function，staged_predict】之类，对于调试观察每个DT的输出非常有帮助。

）大多数模型的predict都依赖于predict_proba返回的proba，但GBDT的predict依赖于decision_function返回的score，但本质一样，仅记录一下。

）还没观察adaboost如何实现，但GBDT给人的感觉是，这种串行训练模型一般在fit中调用_fit_stages，所以看源码知道重点了吧。GBDT在https://github.com/scikit-learn/scikit-learn/blob/51a765a/sklearn/ensemble/gradient_boosting.py#L747的_fit_stage才是真正的训练函数、L763中给出了训练时使用的base tree是【tree= DecisionTreeRegressor(...)】

）In random forests (see RandomForestClassifier and RandomForestRegressor classes), each tree in the ensemble is built from a sample drawn with replacement (i.e., a bootstrap sample) from the training set. In addition, when splitting a node during the construction of the tree, the split that is chosen is no longer the best split among all features. Instead, the split that is picked is the best split among a random subset of the features. ===》训练树之前，bootstrap出样本，训练每个节点时，才sample特征。。。。。

）In extremely randomized trees (see ExtraTreesClassifier and

最低0.47元/天解锁文章

5 条评论

weixin_47659705 2020.05.10
请问sklearn的pyx文件从哪里下载，我的电脑里没有pyx文件谢谢，辛苦
- PIPIXIU回复希望我的头发乖乖呆在我头上 2021.01.12
  直接在sklearn的github上可以看到啊
- 希望我的头发乖乖呆在我头上回复weixin_47659705 2020.07.19
  [reply]weixin_47659705[/reply]我也是，请问你后来找到了吗

cornicione 2017.07.06
您好，我最近在研究random forest部分的代码，博主您写的很详细，对我是一个很好的参考。我有几个问题想请教：1.feature_importance有什么用？如果dataset中的样本特征只是不同时间下的度量值（彼此无关联），是不是这个值没有参考价值？ 2.random forest中里面的标志着每棵树的结果的proba[j]可以调出来使用么？ 3.GBDT是在回归树的基础上建立的，如果要是分类问题，且特征是离散的，可以使用么？还想请博主解答下，谢谢了。
- mmc2015回复cornicione 2017.07.06
  [reply]cornicione[/reply] 1、feature_importance越大，说明该特征对实现目标的重要性越大，特征筛选时就应该保留他们。简单理解就是有了该特征，分类就更准确，回归误差就更小。feature_importance的计算一般要考虑特征之间的交互，但是即使特征之间彼此无关联，feature_importance也是有用的，直观理解是单个特征的有效性。 2、应该可以调出来用，你看下文档，我印象中有一个能按照step输出结果的api。 3、离散特征一般需要one_hot_encoding，如果是离散型数值，也可以不处理，但还要看该特征表示的意义是什么。总之，GBDT可以处理离散特征。

cornicione 2017.07.06
您好，我最近在研究random forest部分的代码，博主您写的很详细，对我是一个很好的参考。我有几个问题想请教：1.feature_importance有什么用？如果dataset中的样本特征只是不同时间下的度量值（彼此无关联），是不是这个值没有参考价值？ 2.random forest中里面的标志着每棵树的结果的proba[j]可以调出来使用么？ 3.GBDT是在回归树的基础上建立的，如果要是分类问题，且特征是离散的，可以使用么？还想请博主解答下，谢谢了。