特征选择算法(机器学习)

最新推荐文章于 2024-10-30 10:22:37 发布

转载最新推荐文章于 2024-10-30 10:22:37 发布 · 720 阅读

CC 4.0 BY-SA版权

原文链接：https://blog.youkuaiyun.com/lc574260570/article/details/81879408

1）特征选择理论
一份数据有很多属性，但有些属性可能很关键，另一些没有用。从给定特征集中选择出相关特征子集的过程称为特征选择。特征选择是一个重要的数据预处理过程。一般在正式的数据处理之前进行。
特征选择是一个重要的数据预处理过程，他不仅可以降低数据维数，以节省时间，简化分析，规避“维度灾难”，更可以去除无关特征，抓住主要矛盾，使分析结果更加准确。同时，采用特征选择算法还便于理解和可视化数据，降低计算及存储压力。
特征选择简单来说就是选出一个“候选子集”，对这个子集进行分类等处理时其效果好于原始数据，且子集特征小于原数据。如何决定这个“候选子集”？想要在出事特征集合中选取一个包含重要信息的特征子集。若没有任何领域知识作为先验假设，就只能遍历。但是这样计算量会特别大。所以方法是先产生一个“候选子集”，再对其进行评估。因此需要两个步骤，一是“子集搜索”，二是“子集评价”。其中子集搜索就是先确定候选子集中的一个属性，并向其中加入另一个属性。若分类性能变好，则加入这个属性，若分类性能未变好，则舍弃这个属性，并向其中加入另一个属性。子集搜索包括前进法，后退发，和逐步回归法。子集评价包含信息增益，交叉熵，相关性，余玄相似度等评价准则。两者结合起来就是特征选择方法，如前进法和信息熵结合，显然和决策树很相似。常见特征选择有三类方法：过滤式，包裹式，嵌入式
2）过滤式（filter）
过滤式方法先对数据集进行特征选择，在训练学习器。相当于先用特征选择过程对初识特征进行过滤，再用过滤后的特征来训练模型。过滤式方法不需要考虑后续学习器的选择。
3）包裹式（wrapper）
于过滤式特征选择不考虑后续学习器不同，包裹式特征选择直接把最终将要使用的学习器性能作为特征子集的评价准则。其开销比过滤式特征大，但最终学习性能更好。
4）嵌入式（embedding）
嵌入式特征选择将特征选择过程和机器训练过程融为一体一体。两者在同一优化过程中完成，即在学习器过程中自动进行了特征选择。比如决策树在分支的过程中，使用的就是嵌入式特征选择方法，其内在还是根据某个度量指标对特征进行排序。