Coggle数据科学 | Kaggle知识点：可解释的特征筛选方法

原创于 2025-12-03 17:47:02 发布 · 470 阅读

CC 4.0 BY-SA版权

文章标签：

1005 篇文章

订阅专栏

本文来源公众号“Coggle数据科学”，仅用于学术分享，侵权删，干货满满。

您是否曾遇到过一个性能极佳的模型，却无法向业务方或监管机构解释它的决策依据？在大数据时代，模型性能固然重要，但其背后的可解释性 (Interpretability) 已成为构建可信赖 AI 的核心要素。

尤其是在金融风控、医疗诊断等高风险领域，仅仅提高 ROC-AUC或准确率是不够的。我们需要知道：模型是基于哪些关键信息做出的决策？这些信息是否稳定、可靠，并符合领域常识？

这正是特征选择 (Feature Selection) 阶段需要关注的重点。一个优秀的特征选择过程，不仅能精简模型、加速训练、降低过拟合风险。让我们深入了解这些方法如何帮助我们构建既高效又可解释的模型。

变异性为零或较低的特征极少能作为有用的预测因子。因此，在数据科学项目之初移除它们是简化数据集和后续数据预处理流水线的有效方法。

在 Python 中，我们可以使用 pandas.std 或 pandas.unique 方法来查找常量特征，然后使用 drop 来移除它们。

重复特征（Duplicate features）是指数据集中完全相同的列，即它们在所有行中包含的值都一模一样。重复特征可能由于数据管理不善或数据操作过程中的失误而意外引入。

例如，对分类变量进行独热编码（One-Hot Encoding）或添加缺失数据指示器时，可能会意外创建重复的新记录。

pandas.corr()函数支持的所有相关性计算方法都可以在此选择器中使用，包括 Pearson（皮尔逊）、Kendall（肯德尔）或 Spearman（斯皮尔曼）系数。您也可以传入一个自定义的相关性函数，前提是该函数返回的值介于 -1 和 1 之间。

在线性模型中尤其重要，有助于提高模型稳定性和可解释性，避免同一个信息被多个特征重复携带。

在处理具有大量特征的数据集时，多个特征（如三个、四个或更多）之间出现相互关联的情况非常常见。在这种情况下，决定保留哪些特征和移除哪些特征成为一个关键的考虑因素。

识别那些单独就能展示出强大预测能力的特征，该选择过程的工作原理如下：

在整个变量集上训练一个模型，并记录其初始性能值。从该模型中获取特征重要性，并根据重要性对特征进行升序排序（即最不重要的特征排在前面），以确定递归移除的顺序。

如果一个特征具有预测性，打乱它在行间的值会破坏其与目标变量的关系，导致预测结果显著偏离实际值（即性能大幅下降）。相反，如果一个特征不具有预测性，改变其值的顺序对模型预测几乎没有影响（即性能变化很小）。

通过计算每个特征级别（类别或区间）对应的目标变量平均值作为“预测值”，然后比较这些“预测值”与目标变量的实际值，以此来确定一个性能指标。

这个特征选择的核心思想非常简单：它实际上是为每个特征拟合一个最简单的模型一个单变量的最小二乘拟合。对于连续变量，它通过分箱（Binning）将其转换为“类别”。

“预测”生成：
- 分类变量： 计算目标变量在每个类别中的平均值。
- 连续变量： 将连续变量分到不同的区间（Bins）中，并计算目标变量在每个区间中的平均值。
性能评估： 使用这些目标均值作为该特征的“预测”，将其与目标变量的真实值进行比较，计算出所选的性能指标。

通过引入一个或多个随机变量（称为探针特征）来评估和选择特征的方法。其核心思想是：任何比随机噪声（即探针特征）重要性更低的特征，都应该被视为噪声并被移除。**

THE END !

文章结束，感谢阅读。您的点赞，收藏，评论是我继续更新的动力。大家有推荐的公众号可以评论区留言，共同学习，一起进步。