机器学习特征选择方法总结

最新推荐文章于 2024-04-18 22:14:53 发布

转载最新推荐文章于 2024-04-18 22:14:53 发布 · 1k 阅读

部署运行你感兴趣的模型镜像

常用的特征选择方法有：过滤式（filter）、包裹式（wrapper）、嵌入式（embedding)。

过滤式

过滤式特征选择是通过评估每个特征和结果的相关性，来对特征进行筛选，留下相关性最强的几个特征。核心思想是：先对数据集进行特征选择，然后再进行模型的训练。过滤式特征选择的优点是思路简单，往往通过 Pearson 相关系数法、方差选择法、互信息法等方法计算相关性，然后保留相关性最强的N个特征，就可以交给模型训练；缺点是没有考虑到特征与特征之间的相关性，从而导致模型最后的训练效果没那么好。

包裹式

包裹式特征选择是把最终要使用的机器学习模型、评测性能的指标作为特征选择的重要依据，每次去选择若干特征，或是排除若干特征。通常包裹式特征选择要比过滤式的效果更好，但由于训练过程时间久，系统的开销也更大。最典型的包裹型算法为递归特征删除算法，其原理是使用一个基模型（如：随机森林、逻辑回归等）进行多轮训练，每轮训练结束后，消除若干权值系数较低的特征，再基于新的特征集进行新的一轮训练。

嵌入式

嵌入式特征选择法是根据机器学习的算法、模型来分析特征的重要性，从而选择最重要的 N 个特征。与包裹式特征选择法最大的不同是，嵌入式方法是将特征选择过程与模型的训练过程结合为一体，这样就可以快速地找到最佳的特征集合，更加高效、快捷。常用的嵌入式特征选择方法有基于正则化项（如：L1正则化）的特征选择法和基于树模型的特征选择法（如：GBDT）

您可能感兴趣的与本文相关的镜像