1.特征选择
定义:
从N个特征中选择其中M(M<=N)个子特征,并且在M个子特征中,准则函数可以达到最优解。
目的:
选择尽可能少的子特征,模型的效果不会显著下降,并且结果的类别分布尽可能的接近真实的类别分别。
1.1 特征
在一些实际问题中,我们得到的样本数据都是多个维度的,即一个样本是用多个特征来表征的。比如在预测房价的问题中,影响房价y的因素有房子面积x1、卧室数量x2等,我们得到的样本数据就是(x1,x2)这样一些样本点,这里的x1、x2又被称为特征。
1.1.1 特征的分类
在现实生活中,一个对象往往具有很多属性(以下称为特征),这些特征大致可以被分成三种主要的类型:
相关特征:对于学习任务(例如分类问题)有帮助,可以提升学习算法的效果;无关特征:对于我们的算法没有任何帮助,不会给算法的效果带来任何提升;冗余特征:不会对我们的算法带来新的信息,或者这种特征的信息可以由其他的特征推断出
但是对于一个特定的学习算法来说,哪一个特征是有效的是未知的。因此,需要从所有特征中选择出对于学习算法有益的相关特征。
进行特征选择的主要目的:
1. 降维
2. 降低学习任务的难度
3. 提升模型的效率

最低0.47元/天 解锁文章
3162

被折叠的 条评论
为什么被折叠?



