集成特征排序:原理、方法与实验验证
1. 引言
特征选择(FS)是监督机器学习和数据挖掘的主要瓶颈。为提高学习性能,在学习前剔除无关特征十分必要,特别是在生物信息学等领域,可用特征数量远超示例数量时。FS 可形式化为组合优化问题,即找到使基于这些特征学习到的假设质量最大化的特征集。但全局方法(如包装方法)难以扩展到大规模问题,还有一些方法将基于遗传算法(GA)的特征选择与集成学习相结合。
特征排序(FR)是 FS 的一种宽松形式,用户可指定选择的特征数量或通过分析确定。本文提出了一种受装袋和集成学习启发的集成特征排序(EFR)方法,它聚合从同一训练集独立提取的多个特征排序。EFR 使用基于 GA 的学习实现,具体采用了 ROGER 算法,该算法优化了接收者操作特征(ROC)曲线下面积(AUC)准则。本文还使用受约束满足领域的相变范式启发的统计模型验证该方法,该模型考虑了(有限类型的)非线性目标概念。
2. 现有技术
2.1 单变量特征排序
单变量方法为每个特征独立分配分数。其优点是简单,但受特征冗余影响,与目标概念相关的特征会优先排序,无论其是否提供额外信息。特征分数通过统计测试计算,如 Mann - Whitney 测试,该测试关联的分数等同于 Wilcoxon 秩和测试,也等同于 AUC 准则。
2.2 单变量 FR + Gram Schmidt 正交化
这是单变量方法的复杂扩展,基于迭代选择过程。为每个特征分配的分数与其与目标概念的余弦成正比。迭代过程包括:确定当前使分数最大化的特征;将所有剩余特征和目标概念投影到与该特征垂直的超平面上。停止准则基于对目标概念与随机均匀特征余弦的随机