本文主要介绍我们被CVPR2023接收的一篇文章:《Superclass Learning with Representation Enhancement》
**摘要**:在很多真实的场景下,图像类别的划分准则往往由人类的认知决定,而非图像本身的特征。本文将这种问题定义为“超类问题”(Superclass Learning),分析了在超类问题下传统方法所面临的特征提取方面的挑战,并提出了针对这一问题的模型SCLRE。我们使用自注意力机制与监督对比学习相结合,对表征进行增强,并最终得到能表达超类概念的新表征。在实验上,我们在多个数据集上验证了SCLRE的优异性能。在理论上,我们将对比学习的泛化误差拓展到了超类任务中,并证明了它的上界。
1. Introduction(研究背景)
在真实的应用场景下,图像分类的划分准则往往由人类的认知决定,而非图像本身的特征。在一些场景中,由于划分准则过于粗粒度,一种类别的图像往往会包含着各种各样的小类,从而导致即便属于同一类的图像在表征上也缺乏共同的语义特征。例如,在垃圾分类的场景下,可回收垃圾类所包含的图像包含从易拉罐到书籍各种各样的物品,其中并无明显的共性。本文将这一现象定义为“超类问题”(Superclass Learning)。
超类问题有两个与普通分类任务明显不同的特征。 首先,超类问题中包含的子类通常是分散的并且有着很少的共同特征。 如上图左上角子图所示,尽管它们都属于厨房垃圾,苹果、骨头和鸡蛋在特征空间中彼此相聚较远,因为它们在图像上缺少共同的特征。 其次,来自两个不同超类的实例却可能具有共同的特征。 来自厨余垃圾的水果苹果,和来自可回收垃圾的玩具苹果,在特征空间中彼此相聚更近,因为它们有着更多的共同语义特征。在这样的情况下,由于同类样本间的表征差距较大,现有方法难以提取到超类层次的特征,从而造成较差的模型表现,现有的研究也尚未关注到超类层次的特征。因此,针对超类问题的特征提取方法研究意义重大。
超类问题的研究需要解决两个主要挑战。 首先,我们需要打破原有的基础类决策边界。 如上图底部子图 (a) 所示,由于水果苹果和玩具苹果都属于苹果域,因此这种特征对垃圾分类问题毫无用处甚至有害。 为了获得所需的域边界,需要利用苹果域各自的局部特征将苹果域分为水果域和玩具域,如上图底部子图 (b) 所示。第二个挑战是在超类层次重建决策边界。 为了达到这个目的,需要将类域(例如水果苹果、鸡蛋和骨头)合并到一个新的厨余垃圾超类域中,如上图底部子图 (c) 所示。
超类问题本质上是一种比以往的粗粒度分类更粗粒度的问题。在我们的工作中,超类问题比以前的研究处于更高层次,其困难在于一个超类中有着各种不同的视觉特征,而现有的工作则少有讨论这一点。我们展示了在我们构建的超类数据集上,粗粒度问题的现有研究(GEORGE)的模型性能,结果如下表所示。由于超类问题与传统粗粒度问题之间的差异,它们无法有效地学习超类感知的表示,并甚至得到比baseline更差的结果。