一 解决的问题
跟第10章降维的思想相同,特征选择目的也是想减少用于计算的特征,尽可能从最少的特征得到准确的结果。
不过同降维不同的是,特征选择更关注特征本身是否有用,思路是只选取与问题求解有益的特征进行建模。由此,将特征划分为 相关特征、无关特征、冗余特征。
那么定义特征是否有用的标准是什么呢?
可以借助于第8章的多样性度量进行比较,把Class的label作为一种划分,把属性的切分作为一种划分,那么我们可以对这两种划分进行比较,考察两者的相关性,不合度等指标,就可以知道这个属性是否跟目标划分产生影响。
常见的特征选择大致分为三类:
过滤式:先进行特征工程,选取好的特征,然后进行训练;
包裹式:选取特征的时候就把学习器的性能作为指标,选取的特征跟学习器具有很好匹配度,更准确,但也更耗计算开销;
嵌入式:嵌入式会与L1正则化项结合起来作为Loss函数进行训练,而L1正则化更易获得稀疏解,得到更好的线性可分性质。 而模型训练结束,稀疏解也同时得到,这样也得到了仅采用一部分初始特征的模型。
既然稀疏表达有更好的线性可分性质,那么能否通过转化将数据集变成可稀疏表达的矩阵呢?由此引入字典学习,字典学习目标在于找到合适的字典,即合适的属性定义,让样本在字典属性上的表达成为稀疏表达,之后再进行下一步的求解。
反过来,也可以利用稀疏表达进行原数据的追踪。从有限的不全的信息中根据稀疏处理的方式获得准确的原始信息,这就是压缩感知解决的问题。

本文介绍了特征选择的目的,旨在减少特征以提高模型准确性,主要分为过滤式、包裹式和嵌入式三种方法。稀疏学习通过L1正则化实现,而字典学习用于找到稀疏表达的属性定义。文中还提到了压缩感知在数据追踪中的应用,并以西瓜数据集为例探讨了特征相关性。
最低0.47元/天 解锁文章
17万+

被折叠的 条评论
为什么被折叠?



