图像长尾分布(Long-Tail Distribution)问题
Long-tail distribution problem in image datasets.
在ImageNet、COCO等常用视觉数据集中,由于经过人工预筛选,图像中的不同目标类别的数量是接近的。而在实际的视觉应用中,数据集大多服从长尾分布(long-tail distribution),即少数类别(称为head class)占据绝大多数样本,多数类别(称为tail class)仅有少量样本。一个典型的长尾分布数据集(Open Brands商标数据集)如下图所示。
定义数据集的**不平衡率(imbalance ratio)**为类别的最大数量和最小数量之比。目前常用的一些长尾分布数据集如下:
- CIFAR100-LT:对CIFAR100的每类训练样本下采样得到的,不平衡率可以取