特征选择算法与一致性度量的研究进展
1. 引言
在机器学习领域,数据通常以向量形式表示,如 (f1, …, fL, c),其中 fi 是特征 Fi 的值,c 是类别标签。分类器算法的目标是根据特征向量 (f1, …, fL) 猜测类别标签 c,但过多的特征数量(即较大的 L)会对分类器算法的准确性和效率产生负面影响。因此,特征选择的目的是通过消除与分类无关的特征来减少特征数量。
许多传统的特征选择算法会评估单个特征 F 与分类的相关性,采用的度量方法包括互信息 I(F; C) 和对称不确定性 SU(F; C) 等。然而,这类算法存在忽略相关特征之间相互作用的问题。例如,当 F1 和 F2 通过特定逻辑关系决定类别 C 时,单独评估 F1 和 F2 与 C 的相关性可能为 0,但它们共同作用对 C 有重要影响;而某些无关特征 Gi 与 C 的相关性评估可能为正,导致这些传统算法可能选择无关特征而非相关特征,从而限制了分类器的预测准确性。
为解决这一问题,一致性基方法应运而生。该方法定义了特征子集 ˜F 与类别 C 的一致性,即若对于任意样本对,当 ˜F 中的特征值相同时,类别标签也相同,则称 ˜F 与 C 一致。早期的一致性基过滤器 FOCUS 旨在选择最小的与 C 一致的特征子集,但在存在噪声的情况下可能失效。后来,Zhao 和 Liu 提出了不一致率来评估特征子集与 C 的一致程度,并开发了 INTERACT 算法。
2. 特征选择的背景和问题
2.1 传统特征选择算法的局限性
传统的基于单个特征评估相关性的算法,在处理特征之间存在复杂相互作用的情况时表现不佳。以 F1、F2、G1 和 G2 为例,通过概率分布