如何用sklearn工具包里面的feature_selection模块来进行特征选择/降维（二）

最新推荐文章于 2023-01-23 01:31:19 发布

小白掌柜

最新推荐文章于 2023-01-23 01:31:19 发布

阅读量431

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习特征选择 l1 正则化 SelectFromModel 递归特征消除

原文链接：https://scikit-learn.org/stable/modules/feature_selection.html#feature-selection

机器学习专栏收录该内容

14 篇文章

订阅专栏

本文深入探讨了递归特征消除(RFE)和SelectFromModel等特征选择方法，详细讲解了RFE如何通过递归方式减少特征数量，以及SelectFromModel如何基于评估器的coef_或feature_importances_属性移除不重要特征。同时，介绍了基于L1正则化的特征选择应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

（接上篇）

1.13.3. 递归特征消除
给定一个对特征进行权重分配的外部评估器（比如线性模型里面的系数），递归特征消除（RFE）法会通过递归考虑越来越少的特征集来进行特征选择。首先，在初始化的特征集上面已经训练好的评估器要么通过coef_属性，要么通过feature_importances_属性获取每个特征的重要性。接着，最不重要的特征将从当前特征集中删除。然后会在修剪集（即刚才删除最不重要特征后的数据集）上递归地重复这个过程直到最终达到所需要的特征数量。

RFECV则以交叉验证循环的方式执行RFE来找到最佳特征数量。
示例：
- 递归特征消除：递归特征消除示例显示了数字分类任务中像素的相关性。
- 交叉验证式递归特征消除：该递归特征消除示例通过交叉验证方式自动调整选取的特征数量。
1.13.4. 使用SelectFromModel进行特征选择
SelectFromModel是元转换器，即它能与拟合后任一具有coef_或feature_importances_属性的评估器一起使用。如果这些特征相应的coef_或feature_importances_值低于预设的threshold参数，那么这些特征会被认为是不重要的且会被移除。除了通过数值来指定阈值，还可以通过内置的启发式方法，使用字符串参数找到阈值。可用的启发式方法有“mean(平均数)”、“median(中位数)”以及像“0.1*mean”这样倍数的浮点数。同threshold标准结合的时候，可以使用max_features参数来设置选择特征数量。

如何使用该方法请看下面的示例。
示例：
- 使用SelectFromModel和LassoCV进行特征选择：从事先不知道阈值的糖尿病数据集中选择最重要的两个特征。
1.13.4.1. 基于L1的特征选择

使用L1范数/正则化惩罚的线性模型会得到稀疏的解：它们的许多系数都是零。当目标是减少与另一个分类器一起使用的数据维度时，可以将它们与feature_selection.SelectFromModel 方法一起使用来选择非零系数。特别是，可用于此目的的稀疏评估器有，用于回归的 linear_model.Lasso，以及用于分类的linear_model.LogisticRegression和svm.LinearSVC。

>>> from sklearn.svm import LinearSVC
>>> from sklearn.datasets import load_iris
>>> from sklearn.feature_selection import SelectFromModel
>>> X, y = load_iris(return_X_y=True)
>>> X.shape
(150, 4)
>>> lsvc = LinearSVC(C=0.01, penalty="l1", dual=False).fit(X, y)
>>> model = SelectFromModel(lsvc, prefit=True)
>>> X_new = model.transform(X)
>>> X_new.shape
(150, 3)