4实证研究
本节对现有的长尾学习方法进行实证分析。首先,我们引入一个新的评估指标。
4.1新颖的评估度量
长尾学习的关键目标是处理类不平衡以获得更好的模型性能。因此,常见的评估协议[13],[22]直接使用top-1测试精度(用At表示)来判断长尾方法的执行情况,以及哪种方法更好地处理类不平衡。然而,当处理类别不平衡时,这样的度量不能准确地反映不同方法之间的相对优势,因为除了类别不平衡之外,前1名的准确性还受到其他因素的影响。例如,像集成学习(或数据增强)这样的长尾方法也可以提高模型的性能,在平衡的训练集上进行训练。在这种情况下,很难判断性能的提高是来自类不平衡的缓解还是来自更好的网络架构(或更多的数据信息)。为了更好地评估该方法在处理类别不平衡方面的有效性,我们提出了一种新的度量标准,即相对准确度Ar,以减轻长尾学习中不必要因素的影响。为此,我们首先计算经验上参考精度Au = max(Av,Ab),它是在具有交叉熵的平衡训练集上训练的相应主干的标准精度Av和在具有相应长尾方法的平衡训练集上训练的模型的平衡精度Ab之间的最大值。这里,平衡训练集是长尾训练集的变体,具有相似的总数据数,但是每个类具有相同的数据数。从平衡的训练集获得的这个较高的参考精度用于减轻除类别不平衡之外的影响;那么相对精度定义为Ar = At/Au。在我们的实验中,所有的准确度、上参考准确度和相对准确度将用于评估。
4.2实验设置
我们接着介绍实验设置。
数据集。我们采用广泛使用的ImageNet-LT [15]作为实证研究的基准长尾数据集,考虑到ImageNet-LT具有1000个大规模类和256的大不平衡率。ImageNet-LT的相应平衡训练集变体基于[13]进行采样。ImageNet-LT的总样本数可在表1中找到。除了关于所有类的性能,我们还报告了ImageNet-LT中三个类子集的性能:头部(超过100个图像)