模式识别问题中构建、训练分类器的过程中避不开数据预处理这个过程,而在数据预处理过程中,特征选择又尤其的重要,特征选取的好坏很大程度影响到最终分类的正确率上。不仅如此,在很多的分类问题中,原始数据的维度经常会过高,并且包含很多冗余的信息,造成所谓“维数灾难”。
子集搜索:
子集搜索方式分为三类:
1、 前向搜索:起始特征子集为空,贪心地逐次增加一个行的特征进特征子集,每次进行一次性能评价,直至不能取得更好的分类性能为止。
2、 后向搜索:与前向搜索相反,起始候选子集为整个特征集合,然后逐次地减少无关特征。
3、 双向搜索:即同时增加有用特征,以及减少无用特征。(注意:被作为有用特征加入特征子集的不会在后续的操作中被删除,这是确定的)
过滤式选择(Relief法):
基本思路:
针对每一个特征,计算其“相关统计量”,以该指标来表征这个特征的重要性,如果某特征的“相关统计量”大于某一阈值th,就保留该特征,否则删去,也可以保留前k个“统计相关量”最大的特征来作为新的特征子集。
“统计相关量”的计算方法:
遍历每一个特征,对每一个特征(比如第j个特征),计算每一个样本点在此特征上的“猜中(第四声)临近”(near-hit)和“猜错临近”(near-miss),即该点到最近的一个同类点的距离和最近的一个异类点的距离,两个距离的平方再求差,然后将这些差全部累积求和,得到的就是这个特征的“相关统计量”,从而能够表征该特征对分类成功的贡献程度。
计算式如下: