sklearn：使用GBDT选择特征

使用GBDT进行特征选择实战

最新推荐文章于 2025-06-29 16:01:44 发布

原创最新推荐文章于 2025-06-29 16:01:44 发布 · 1.5w 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#sklearn #机器学习 #Python #GBDT #特征选择

机器学习专栏收录该内容

24 篇文章

订阅专栏

本文介绍了如何利用sklearn库中的GBDT方法进行特征选择。通过训练GBDT模型，可以有效识别出对目标变量影响显著的特征，进一步优化机器学习模型的性能。选取的特征可用于后续的模型训练。

（1）如何在numpy数组中选取若干列或者行？
>>>import numpy as np
>>>tmp_a = np.array([[1,1], [0.4, 4], [1., 0.9]])
>>>tmp_a
>>>tmp_a[[0,1],:]#选第0、1行
>>>tmp_a[np.array([True, False, True]),:]# 选第0、2行
>>>tmp_a[:,[0]]#选第0列
>>>tmp_a[:, np.array([True, False])]#选第0列

（2）训练GBDT，选取特征，选完之后可以用其他方法继续进行训练。

from sklearn.ensemble import GradientBoostingClassifier
gbdt = GradientBoostingClassifier(
    init=None,
    learning_rate=0.1,
    loss='deviance',
    max_depth=3,
    max_features=None,
    max_leaf_nodes=None,
    min_samples_leaf=1,
    min_samples_split=2,
    min_weight_fraction_leaf=0.0,
    n_estimators=100,
    random_state=None,
    subsample=1.0,
    verbose=0,
    warm_start=False)
print "fit start!"
gbdt.fit(X[499:], y[499:])
print "fit success!"


score = gbdt.feature_importances_
print gbdt.feature_importances_.shape

#选择importance>0的特征

X_new = X[:, gbdt.feature_importances_>0]
X_new.shape

注：X为数据特征，y为标记的类别。用X[499：]，y[499:]对GBDT进行训练。然后如果该特征的gbdt.feature_importances_>0，则该特征保留，否则，则把该特征删除，从而达到选取特征的效果。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

JepsonWong

关注关注

2
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

GBDT+LR (GBDT负责自动特征筛选与组合 -＞ LR负责分类)

weixin_43646592的博客

02-08

1126

搜广推 GBDT+LR (GBDT负责自动特征筛选与组合 -＞ LR负责分类)

【python 机器学习】sklearn GBDT介绍

m0_62599305的博客

04-21

936

是一种集成学习方法，它通过将多个决策树结合在一起，逐步优化每个模型的预测结果。GBDT 是一种非常强大的机器学习算法，广泛应用于分类、回归等任务，且表现出色。本文将介绍GBDT的基本概念、工作原理以及在sklearn中的实现方法。

参与评论您还未登录，请先登录后发表或查看评论

梯度提升树系列5——使用GBDT进行特征选择

theskylife的博客

02-07

2581

特征选择是机器学习和数据科学中至关重要的一环，它不仅可以提高模型的性能，还能显著减少模型训练所需的时间和资源。本文将深入探讨如何使用梯度提升决策树（Gradient Boosting Decision Tree, GBDT）进行特征选择，并强调这一方法在实践中的重要性和效果。

用随机森林分类器和GBDT进行特征筛选

平平淡淡，戒急用忍，一生学闭嘴。

12-01

2716

一、决策树（类型、节点特征选择的算法原理、优缺点、随机森林算法产生的背景） 1、分类树和回归树　　由目标变量是离散的还是连续的来决定的；目标变量是离散的，选择分类树；反之（目标变量是连续的，但自变量可以是分类的或数值的），选择回归树；　　树的类型不同，节点分裂的算法和预测的算法也不一样；　　分类树会使用基于信息熵或者gini指数的算法来划分节点，然后用每个节点的类别情况投票决定预测样本的分类；回归树会使用最大均方误差来划分节点，然后用每个节点中样本的均值作为测试样本的预测值； 2、决策树的算法：ID3

【机器学习实战笔记 13】集成学习：GBDT算法

最新发布

Wilber的blog。心若有所向往，又何惧道阻且长。

06-29

723

主要讲解梯度提升树GBDT的基本思想、参数空间、参数优化、数学求解流程。

使用GBDT选取特征

u014033218的专栏

03-10

5827

为什麽选取特征有些特征意义不大，删除后不影响效果，甚至可能提升效果。关于GBDT(Gradient Boosting Decision Tree) 可以参考： GBDT（MART）概念简介 GBDT（MART）迭代决策树入门教程 | 简介 机器学习中的算法(1)-决策树模型组合之随机森林与GBDT 如何在numpy数组中选取若干列或者行？ >>> impo...

scikit-learn的GBDT工具进行特征选取。

weixin_34268310的博客

01-08

709

http://blog.youkuaiyun.com/w5310335/article/details/48972587 使用GBDT选取特征 2015-03-31 本文介绍如何使用scikit-learn的GBDT工具进行特征选取。为什麽选取特征有些特征意义不大，删除后不影响效果，甚至可能提升效果。关于GBDT(Gradient Boosting Decision Tree) 可以参考： GBDT...

sklearn 中的 GBDT 回归

qq_32863339的博客

09-04

5491

sklearn的gbdt回归 GradientBoostingRegressor类构造方法 def __init__(self, loss='ls', learning_rate=0.1, n_estimators=100, subsample=1.0, criterion='friedman_mse', min_samples_split=2, ...

sklearn中的GBDT模型

guofei_fly的博客

12-16

3312

和随机森林模型类似，scikit-learn中的GBDT模型也是基于决策树模型的集成算法，区别在于前者基于并行的bagging框架，而后者基于串行的boosting框架。将boosting框架作用于CART树上，分别有适用于分类问题的GBDTClassifier和适用于回归问题的GBDTRegressor。两者在参数设定、调参等方面均极为类似。 1. 模型的主要参数在GBDT中，存在两大类型...

sklearn中GBDT的一些参数、属性、方法的理解

VariableX的博客

07-08

9651

文章目录GBDT 分类器引入重要参数losslearning_ratesubsamplen_estimatorscriterionmax_depthmin_samples_leafmin_samples_splitmax_featuresverbose重要属性重要方法GBDT 回归器本文主要是sklearn中GBDT的一些参数、属性、方法的理解，如果需要了解基础的理论知识，可以看看之前发表的文章：梯度提升树(GBDT)相关知识。 GBDT 分类器引入 from sklearn.ensemble impo

sklearn中的GBDT分类算法详解与应用

资源摘要信息:"GBDT.zip_GBDT_sklearn_分类算法_提升树_梯度提升决策树" GBDT（Gradient Boosting Decision Tree）即梯度提升决策树，是一种基于决策树算法的集成学习方法。它通过构造多棵决策树，并将这些树组合...

LightGBM中的GBDT实现

07-20

LightGBM中的GBDT实现

特征选择

weixin_34349320的博客

04-25

177

0 - 引入　　在数据预处理之后，我们通常需要选择有意义的特征进行后续的训练，一般选取特征的依据有如下两个方面：特征是否发散（我觉得更好的描述应该是，特征分布是否正常）：如果一个特征不发散，则方差接近0，说明各个样本的该特征相差无几，所以该特征对于样本的区分用处不大；特征与目标的相关性：对于目标相关性高的特征应该优先选择。　　因此，基于上述两个方面，特征选择的方法可以划分为...

RF、GBDT、XGboost特征选择方法

热门推荐

u014035615的博客

04-19

1万+

RF、GBDT、XGboost都可以做特征选择，属于特征选择中的嵌入式方法。比如在sklearn中，可以用属性feature_importances_去查看特征的重要度, 比如：from sklearn import ensemble #grd = ensemble.GradientBoostingClassifier(n_estimators=30) grd = ensemble.Rando...

GBDT+LR算法解析及Python实现

weixin_30781107的博客

09-18

1523

1. GBDT + LR 是什么本质上GBDT+LR是一种具有stacking思想的二分类器模型，所以可以用来解决二分类问题。这个方法出自于Facebook 2014年的论文Practical Lessons from Predicting Clicks on Ads at Facebook。 2. GBDT + LR 用在哪 GBDT+LR 使用最广泛的场景是CTR点击率预估，即预测...

【推荐系统】GBDT为什么可以进行特征选择

优快云精品推荐

11-11

1465

如果需要完整代码可以关注下方公众号，后台回复“代码”即可获取，阿光期待着您的光临~ 文章目录 2021人工智能领域新星创作者，带你从入门到精通，该博客每天更新，逐渐完善推荐系统各个知识体系的文章，帮助大家更高效学习。在CRT预估中，工业界一般是会采用逻辑回归进行处理，对用户特征画像进行建模，然后计算点击概率，评估用户是否会有点击的行为。但是逻辑回归这个算法天生就会有个缺陷，它不能够区分非线性的数据，原因是逻辑回归是在普通的线性回归的基础之上添加了Sigmoid函数，处理的只能是线性数据，那么我们.

GBDT做特征选择

h2728677716的博客

03-28

2355

对于单颗树，我们要计算特征j在单颗树中的重要度，就是计算特征j在单颗树中带来的收益之和。那对于集成学习，假设有T棵树，那么我们就每颗决策树中的每个特征重要程度加和除以T，就是每个特征的重要程度。那么决策树或者基于决策树的GBDT可以在训练完后，根据计算好的feature_importance去选择分值大和分值小的，从而进行合理降维。 ...

特征选择大法好-----一篇关于特征选择讲解的绝佳美文！

weixin_40099645的博客

08-21

1014

好文章也是最好的老师转载 特征选择 (feature_selection) 这篇文章中有关于特征选择方法分类，原理等各个细节方面的讲解，十分详细，且伴有pythone实例，非常使用，一起来学习下！...