多类不平衡数据的选择性预处理算法
1. 引言
在分类问题中,类不平衡是一个常见的挑战,表现为决策类之间示例分布不均匀,少数类的示例数量远少于多数类。这种不平衡,再加上一些额外的数据困难因素,如少数类中的稀有子概念、少数类和多数类之间的重叠区域,以及位于多数类内部的少数类示例,会严重影响学习方法的分类性能,尤其是对少数类的分类。
目前,对类不平衡问题的研究兴趣日益增长,但大多数研究集中在二元分类中的类不平衡问题。这是因为在许多实际问题中,单个少数类往往具有重要意义,为了提高其正确识别率,通常会将其余类进行合并处理。然而,对于存在多个重要少数类的问题,这种合并方式可能会丢弃类之间的潜在关系,并不合适。
为了解决多类不平衡问题,人们提出了一些方法,如基于一对一(OVO)或一对多(OVA)方案的方法。这些方法将多类问题分解为一系列二元问题,但它们存在一些局限性。OVA方案虽然保留了原始类,但会丢弃类之间的关系;OVO方案不合并类,但处理复杂度较高。
本文提出了一种直接选择性预处理多类不平衡数据的算法——SPIDER3。该算法借鉴了SPIDER2的一些思想,如重新标记和局部重采样的组合,但引入了几个重要的扩展。它能够直接处理多类问题,考虑特定决策类的相关性来控制处理顺序,并利用类之间的关系(通过误分类成本建模)来更好地控制对预处理数据的局部修改。
2. 相关工作
多类不平衡分类问题的研究仍处于早期阶段,主要集中在三个主题:
- 多类分解 :将原始多类问题分解为一组二元问题,可使用现有的成熟方法处理。方法包括简单的OVO和OVA,以及更复杂的层次分解。
-