不平衡领域的多分类问题:基于单类补偿重建规则的解决方案
1. 引言
在机器学习和数据挖掘领域,不平衡(或偏斜)识别问题是一个关键挑战。当一个或多个类别相对于其他类别代表性不足时,就会出现这种问题。传统学习算法往往偏向于多数类,导致对少数类的预测准确性较低。这种现象在现实世界的应用中很常见,如文本分类、货币验证和医学诊断等。
近年来,虽然有许多针对二元不平衡问题的学习方法,但对多类不平衡学习的研究相对较少。目前,多类不平衡学习的研究大致可分为两类:
- 直接补偿类不平衡 :例如,通过引入特定的成本函数、构建超球体等方法来解决多类不平衡问题。
- 分解方法 :将多类问题分解为多个二元子任务,每个子任务由一个分类器(二分器)处理,然后根据重建规则组合二分器的输出。
为了进一步解决多类不平衡学习问题,本文提出了一种新的重建规则——补偿重建规则(CRR),该规则在单类分解框架内结合二分器的输出,旨在降低类偏斜的影响并提高系统性能。
2. 背景知识
2.1 单类分解方法
分解方法的核心思想是将多类问题简化为更简单的二元问题,每个二元问题由一个二分器处理。其原理在于,区分两个类别比同时区分多个类别更容易,而且大多数可用的分类算法更适合学习二元函数。
分解方法可以统一在一个通用框架中,其中输出空间由一个二进制代码矩阵(分解矩阵)表示。常见的分解方法包括单类(OpC)、纠错输出码和成对耦合等。本文重点介绍OpC方法,原因如下:
- 它应用于本文提出的重建规则中。
- 它会为每个二分器引入强烈的不平
基于CRR的多类不平衡分类
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



