RF、GBDT、XGboost特征选择重要性计算或如何做特征选择的？

最新推荐文章于 2025-06-15 01:32:04 发布

qq_34872215

最新推荐文章于 2025-06-15 01:32:04 发布

阅读量7.5k

点赞数 4

分类专栏：深度学习文章标签：决策树 GBDT XGBoost

深度学习专栏收录该内容

7 篇文章

订阅专栏

RF、GBDT、XGboost可用于特征选择，属于嵌入式方法，在sklearn中可用feature_importances_查看特征重要度。文章分别介绍了三者计算特征重要度的方法，随机森林用袋外数据做预测评估，GBDT计算特征在单棵树中重要度的平均值，XGboost通过特征在每棵树中分裂次数的和计算。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

RF、GBDT、XGboost都可以做特征选择，属于特征选择中的嵌入式方法。比如在sklearn中，可以用属性feature_importances_去查看特征的重要度, 比如：

from sklearn import ensemble
#grd = ensemble.GradientBoostingClassifier(n_estimators=30)
grd = ensemble.RandomForestClassifier(n_estimators=30)
grd.fit(X_train,y_train)
grd.feature_importances_

但是这三个分类器是如何计算出特征的重要度呢？下面来分别的说明一下。

1. 随机森林（Random Forest）

用袋外数据 (OOB) 做预测。随机森林在每次重抽样建立决策树时，都会有一些样本没有被选中，那么就可以用这些样本去做交叉验证，这也是随机森林的优点之一。它可以不用做交叉验证，直接用oob _score_去对模型性能进行评估。

具体的方法就是：

1. 对于每一棵决策树，用OOB 计算袋外数据误差，记为 errOOB1；

2. 然后随机对OOB所有样本的特征i加入噪声干扰，再次计算袋外数据误差，记为errOOB2；

3. 假设有N棵树，特征i的重要性为sum(errOOB2-errOOB1)/N;

如果加入随机噪声后，袋外数据准确率大幅下降，说明这个特征对预测结果有很大的影响，进而说明它的重要程度比较高

2. 梯度提升树（GBDT）

主要是通过计算特征i在单棵树中重要度的平均值，计算公式如下：

其中，M是树的数量。特征i在单棵树的重要度主要是通过计算按这个特征i分裂之后损失的减少值

其中，L是叶子节点的数量，L-1就是非叶子结点的数量。