目标检测中的数据类别不均衡问题
1. 问题概述
在目标检测任务中存在各种各样的不均衡问题(参考 目标检测领域中的数据不均衡问题综述),这里仅仅针对数据类别不均衡问题,就是下表的前景类别间不均衡问题,也是我们常说的长尾数据问题。当然这个问题并非是检测任务才有,其他的比如分类任务也是一样存在的,可能有区别的是,对于检测来说,是每个类别的 bbox 数量而不是图片数量。
2. 解决思路
2.1 从数据着手
从数据上来说,哪一类少就增加哪一类,但是如果要去收集代价可能又太大了,有时候甚至是不可能。
-
重采样(re-sampling)
工程上最廉价的方式,直接对较少的类别数据进行重采样,使得数量增加。
-
数据合成
简单的比如通过crop & paste 的方式增加少类别样本,甚至是 GAN 等方式。
2.2 从 Loss 着手
-
重加权(re-weighting)
比如以