我们将属性称为“特征”
对当前学习任务有用的属性:相关特征
没什么用的属性:无关特征
(冗余特征:所包含的信息能从其他特征中推演出来)
从给定的特征集合中选择出相关特征子集的过程:特征选择
特征选择——即“数据预处理”过程
现实机器学习:获得数据之后先特征选择,后训练学习器
特征选择原因:
1、维数灾难:属性过多(与降维类似)
2、降低学习任务的难度
欲从初始特征集合中选取一个包含了所有重要信息的特征子集,若没有任何领域知识作为先验假设,那就只好遍历所有可能的子集;然而这在计算