论文下载+code:
https://www.robots.ox.ac.uk/~vgg/research/gcd/
一、基本原理
本研究主要通过多种方式解决广义类别发现问题。首先,从NCD(novel-category discovery)中选取代表性方法并将其应用于此任务来建立强大的基线。为此,调整了它们的训练和推理机制以考虑我们更一般的设置,并使用更强大的骨干架构对它们进行重新训练。研究表明,现有的NCD方法在这种广义设置中容易过度拟合标记类。接下来,观察到NCD方法过度拟合标记类,研究提出了一种简单但有效的聚类识别方法。主要是利用Vision Transformer的强大“最近邻”分类属性以及对比学习。建议使用对比训练和半监督k均值聚类算法来识别没有参数分类器的图像。结果表明,这些提出的方法大大优于既定的基线,无论是在通用对象识别数据集上,还是在更具挑战性的细粒度基准上。对于后面的评估,该研究利用了最近提出的,为识别语义新颖性任务而设计的语义转变基准套件。最后,研究提出了一种利用标记集来解决估计未标记数据中的类别数量这个问题的算法,以解决图像识别中一个具有挑战性且研究不足的问题。
二、拟解决的关键问题
(i)广义类别发现(GCD)的形式化,这是一种新的、现实的图像识别设置;(ii)通过将标准新类别发现的最新技术应用于此任务,建立强大的基线;(iii)一种简单但有效的GCD方法,它使用对比表示学习和聚类直接提供类标签,并且大大优于基线;(iv)一种估计未标记数据中类别数量的新方法,这是一个研究不足的问题;(v)对标准图像识别数据集以及最近的语义转换基准套件进行评估。
三、相关解决方案
3.1实验设置
在这里,我们描述了在广义类别发现设置中,对于本文使用的每个数据集,哪些类别构成了“旧”和“新”类别。对于所有数据集,我们将50%的类别抽样为“旧”类别|Yc|,其余类别保留为“新”类别(Yu\Yc)。例外是CIFAR100,我们按照新颖的类别发现文献,为其使用80个类别作为“旧”。对于通用对象识别数据集,我们使用前|Yc|个类别(根据其类别索引)作为“旧”,其余类别作为“新”。对于语义转换基准套件中的数据集,我们使用[45]中提供的数据分割。对于Herbarium19,为了解释数据集的长尾性质,我们从类别总列表中随机抽取“旧”类别,具体分割信息如表1所示。
表1 数据集
CIFAR10 | CIFAR100 | ImageNet-100 | CUB | SCars | Herb19 | |
Yc | 5 | 80 | 50 | 100 | 98 | 341 |
Yu | 10 | 100 | 100 | 200 | 196 | 683 |
Dc | 12.5k | 20k | 31.9k | 1.5k | 2.0k | 8.9k |
Du | 37.5k | 30k | 95.3k | 4.5k | 6.1k | 25.4k |
M=|Du|,P(Yu)是未标记集合中类标签的所有排列的集合。我们的主要指标是“所有”实例的ACC,表示图像识别准确率,在整个未标记集DU中。我们进一步报告“旧”类子集(DU中属于YL中类的实例)和“新”类子集(DU中属于YU\YL中类的实例)的值。
3.2对比试验
我们在表2和表3中报告了所有比较方法的结果。作为额外的基线,我们还报告了当在原始DINO特征(报告为k-means)上直接运行k-means时的结果。表2为通用目标识别数据集的结果,表3为SSB和herbarum19的结果。
表2 通用图像识别数据集结果
表3 SSB和Herbarium19结果
CUB | Standford Cars | Herbarium19 | |||||||
Classes | All | Old | New | All | Old | New | All | Old | New |
k-means | 34.3 | 38.9 | 32.1 | 12.8 | 10.6 | 13.8 | 12.9 | 12.9 | 12.8 |
RankStats+ | 33.3 | 51.6 | 24.2 | 28.3 | 61.8 | 12.1 | 27.9 | 55.8 | 12.8 |
UNO+ | 35.1 | 49.0 | 28.1 | 35.5 | 70.5 | 18.6 | 28.3 | 53.7 | 14.7 |
Ours | 51.3 | 56.6 | 48.7 | 39.0 | 57.6 | 29.9 | 35.4 | 51.0 | 27.0 |
总的来说(在Du中的“All”实例中),该方法在标准图像识别数据集上的性能优于RankStats+和UNO+基线,绝对性能高出9.3%,比例性能高出11.5%。同时,在更具挑战性的细粒度评估中,该方法在绝对条件下优于基线8.9%,在比例条件下优于基线27.0%。研究发现,在带有标记示例的类别(“旧”类)上,使用参数分类器的基线可以优于我们的方法,但这是以ACC在“新”类别上的代价为代价的。还发现如果基线训练的时间更长,它们将开始牺牲“旧”类别上的ACC,以换取“新”类别上的ACC,但是通过监测验证集上的性能,使用早期停止可以实现最佳的总体性能。
3.3估计类别数量
表4报告了估计类数的结果。研究发现,在通用对象识别数据集上,可以非常接近未标记集中类别的基本真实数量,最大误差为10%。在细粒度数据集上,报告的平均差异为18.9%。研究注意到这些数据集具有高度挑战性的性质,许多组成类在视觉上是相似的。
表4 估计未标记数据中的类数
CIFAR10 | CIFAR100 | ImageNet-100 | CUB | SCars | Herb19 | |
Groundtruth | 10 | 100 | 100 | 200 | 196 | 683 |
Ours | 9 | 100 | 109 | 231 | 230 | 520 |
Error | 10% | 0% | 9% | 16% | 15% | 28% |
3.4消融实验
在表5中,我们检查了我们提出的方法的各种元素的贡献。具体来说,我们确定了该方法的以下组成部分的重要性:ViT主干;对比微调;半监督k均值聚类。
表5 不同方法消融测试结果
ViT Backbone | Contrastive Loss | Sup. Contrastive Loss | Semi-Sup k-means | CIFAR100 | Herbarium19 | |||||
All | Old | New | All | Old | New | |||||
| × | × | × | × | 34.0 | 34.8 | 32.4 | 12.5 | 12.1 | 11.9 |
| √ | × | × | × | 52.0 | 52.2 | 50.8 | 12.9 | 12.9 | 12.8 |
| √ | √ | × | × | 54.6 | 54.1 | 53.7 | 14.3 | 15.1 | 13.9 |
| √ | √ | × | 60.5 | 72.2 | 35.0 | 17.8 | 22.7 | 15.4 | |
| √ | √ | √ | × | 71.1 | 78.3 | 56.6 | 28.7 | 32.1 | 26.9 |
| √ | √ | √ | √ | 73.0 | 76.2 | 66.5 | 35.4 | 51.0 | 27.0 |
第(1)行和第(2)行显示了ViT模型在聚类任务中的效果,(1)行和(2)行分别代表使用DINO训练的ResNet-50模型和ViT-B-16模型。ResNet模型在“旧类”和“新类”上的综合表现要差近20%。为了将这一点与架构的一般能力区分开来,请注意ImageNet线性探针差异(自我监督模型的标准评估协议)大约为3%。与此同时,他们的k-NN准确率差异为3%。
第(2)-(5)行显示了在目标数据集上引入不同对比度微调组合的效果。我们发现,与使用原始DINO特征相比,单独使用任何一种对比方法都只能带来相对微小的改进。我们发现,只有将目标数据集上的自监督和监督对比损失结合起来,才能实现全部优势。具体来说,结合使用对比损失法,我们可以将CIFAR100和Herbarium19的聚合聚类准确率分别提高19%和16%(在这种情况下,ACC 的准确率提高了一倍多)。
半监督聚类可进一步提高性能。在“所有”类别中,我们观察到CIFAR100和Herbarium19的ACC分别提高了2%和7%。在Herbarium19上,“旧”类的ACC提高了19%。有趣的是,在CIFAR100上,半监督k均值法似乎略微降低了"旧"类的性能。我们认为这是匈牙利算法造成的,该算法选择将一些“干净”的聚类分配给“新”的基本事实类别,以最大化整体ACC。这可以从半监督方法在CIFAR100中"新"类别上提供的10%提升中观察到。此外,我们还发现,如果我们在“旧”和“新”实例上独立执行匈牙利算法(允许在评估过程中重复使用干净的簇群),半监督k-means在所有数据子集上都能提高ACC。
总体而言,我们发现该方法的所有组成部分都不足以单独在基准数据集上实现良好的性能。具体来说,视觉转换器骨干和对比度微调的结合有助于直接在模型的特征空间中进行强大的k-means聚类。半监督k-means算法还能让我们利用标签来指导聚类过程,并获得更好的ACC,尤其是在细粒度数据集中的“新”类上。我们在图1中对CIFAR10数据集进行的TSNE可视化分析进一步说明了这一点。我们展示了原始ResNet-50和ViT DINO特征的TSNE投影,以及我们模型的TSNE投影。就ResNet-50特征而言,来自同一类别的点通常投射到彼此附近,这表明在简单变换(如线性探针)的情况下,它们很可能是可分离的。但是,它们并没有形成明显的聚类,这表明这些特征的下游聚类性能较差。相比之下,ViT 特征形成的聚类要清晰得多。
图1 TSNE可视化
四、总结
在本文中,我们提出了一种新的图像识别设置,即“广义类别发现”(GCD)。我们从这项工作中强调了三个要点:首先,GCD是一个具有挑战性且现实的图像识别设置;其次,GCD消除了现有图像识别子领域(如新类别发现和开放集识别)中的限制性假设;第三,虽然参数分类器在广义设置中倾向于过度拟合标记类,但从经过对比训练的ViT中直接对特征进行聚类被证明是一种出乎意料的好分类方法。
五、思考
该研究提出了一种广义类别发现及其解决办法的新设置,即给定一个数据集,其子集具有类标签,对数据集中所有未标记的图像进行分类,未标记的图像可能来自标记或新类别,利用对比训练的ViT直接通过聚类分配标签。现有教育评价指标通过几个限制性假设,未知类别的数量与类型多为已知的,广义类别发现的任务是对未标记的所有图像进行分类(可能来自新类别),还引入了半监督K均值方法,将未标记的数据自动聚类为可见和不可见的类别,后续进行评价指标自动生成、发现与设计等研究时可借鉴引用。