特征选择算法(机器学习)

1)特征选择理论 
一份数据有很多属性,但有些属性可能很关键,另一些没有用。从给定特征集中选择出相关特征子集的过程称为特征选择。特征选择是一个重要的数据预处理过程。一般在正式的数据处理之前进行。 
特征选择是一个重要的数据预处理过程,他不仅可以降低数据维数,以节省时间,简化分析,规避“维度灾难”,更可以去除无关特征,抓住主要矛盾,使分析结果更加准确。同时,采用特征选择算法还便于理解和可视化数据,降低计算及存储压力。 
特征选择简单来说就是选出一个“候选子集”,对这个子集进行分类等处理时其效果好于原始数据,且子集特征小于原数据。如何决定这个“候选子集”?想要在出事特征集合中选取一个包含重要信息的特征子集。若没有任何领域知识作为先验假设,就只能遍历。但是这样计算量会特别大。所以方法是先产生一个“候选子集”,再对其进行评估。因此需要两个步骤,一是“子集搜索”,二是“子集评价”。其中子集搜索就是先确定候选子集中的一个属性,并向其中加入另一个属性。若分类性能变好,则加入这个属性,若分类性能未变好,则舍弃这个属性,并向其中加入另一个属性。子集搜索包括前进法,后退发,和逐步回归法。子集评价包含信息增益,交叉熵,相关性,余玄相似度等评价准则。两者结合起来就是特征选择方法,如前进法和信息熵结合,显然和决策树很相似。常见特征选择有三类方法:过滤式,包裹式,嵌入式 
2)过滤式(filter) 
过滤式方法先对数据集进行特征选择,在训练学习器。相当于先用特征选择过程对初识特征进行过滤,再用过滤后的特征来训练模型。过滤式方法不需要考虑后续学习器的选择。 
3)包裹式(wrapper) 
于过滤式特征选择不考虑后续学习器不同,包裹式特征选择直接把最终将要使用的学习器性能作为特征子集的评价准则。其开销比过滤式特征大,但最终学习性能更好。 
4)嵌入式(embedding) 
嵌入式特征选择将特征选择过程和机器训练过程融为一体一体。两者在同一优化过程中完成,即在学习器过程中自动进行了特征选择。比如决策树在分支的过程中,使用的就是嵌入式特征选择方法,其内在还是根据某个度量指标对特征进行排序。

n many data analysis tasks, one is often confronted with very high dimensional data. Feature selection techniques are designed to find the relevant feature subset of the original features which can facilitate clustering, classification and retrieval. The feature selection problem is essentially a combinatorial optimization problem which is computationally expensive. Traditional feature selection methods address this issue by selecting the top ranked features based on certain scores computed independently for each feature. These approaches neglect the possible correlation between different features and thus can not produce an optimal feature subset. Inspired from the recent developments on manifold learning and L1-regularized models for subset selection, we propose here a new approach, called {\em Multi-Cluster/Class Feature Selection} (MCFS), for feature selection. Specifically, we select those features such that the multi-cluster/class structure of the data can be best preserved. The corresponding optimization problem can be efficiently solved since it only involves a sparse eigen-problem and a L1-regularized least squares problem. It is important to note that MCFS can be applied in superised, unsupervised and semi-supervised cases. If you find these algoirthms useful, we appreciate it very much if you can cite our following works: Papers Deng Cai, Chiyuan Zhang, Xiaofei He, "Unsupervised Feature Selection for Multi-cluster Data", 16th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD'10), July 2010. Bibtex source Xiaofei He, Deng Cai, and Partha Niyogi, "Laplacian Score for Feature Selection", Advances in Neural Information Processing Systems 18 (NIPS'05), Vancouver, Canada, 2005 Bibtex source
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值