Your “Flamingo” is My “Bird”: Fine-Grained, or Not
2021 CVPR,这还是第一篇看到还有从人工研究实验到模型的论文
文章目录
0 摘要
本文动机:在不同的专业水平下,如何为定制不同的细粒度定义。重新设想了FGVC的设置,从单标签分类到从上到下遍历预定义的从粗到精标签层次结构。
-
进行了全面的人类研究,确认了大多数参与者都喜欢多粒度标签。
-
关键直觉:粗粒度标签的预测不利于细粒度特征学习,而细粒度特征有利于粗粒度分类。措施:
- 用特定级别的分类将粗粒度特征与细粒度特征分开
- 细粒度的特征可以参与粗粒度的标签预测
-
实验表明卓越的性能,比单标签FGV表现好。简单容易实施,无参数。
-
code:https://github.com/PRIS-CV/Fine-Grained-or-Not
1 引言
本文没有刻意追求性能的提高,而是对粒度的基本原理,对细粒度分类本身的定义提出了疑问。用于目前数据集的细粒度专家级标签是否确实传达了最终的用户习惯。答案是主观的,而且和人的知识背景密切相关。那么,如何针对细粒度内容的主观定义,设计出最适合FGVC实际使用场景的系统?也就是“界门纲目科属种”,对于普通人来说,那个级别是最合适的。
- 招募志愿者进行研究。
- 根据结果扩展了细粒度视觉分类问题,从单标签分类问题扩展到层次结构上的多个标签预测问题。最容易的做法是在每个层级上都进行分类,尽管确实可以作为基准,但是并不能从标签的层次关系中受益。
两个关键观察:
- 粗粒度标签的预测不利于细粒度特征学习
- 细粒度特征有利于粗粒度分类
基于上述观察做出的举措:
- 使用了一个多任务学习框架,执行逐级特征分解,避免粗对细的不利影响。
- 在前向传播时,用细粒度特征通过特征级联参与粗粒度标签的分类。
本文贡献:
- 重新设想FGVC问题的设置,适应“细粒度”的主观定义。用从粗到细、从上到下的层次结构取代单标签分类。
- 发现了对内在的粗细层次关系的重要见解
- 通过将粗细粒度解耦,实现出色的性能
2 相关研究
FGVC
多任务学习MTL
多任务学习旨在利用任务之间的公共信息来提高模型的通用性。在深度学习中,通过设计和优化网络鼓励在多任务监督下共享表示形式。硬参数共享是将参数集划分为共享的和特定于任务的算子。软参数共享中,每个任务都有参数集,引入正则化来鼓励跨任务。
3 人为研究
数据
在CUB数据集上在种(specie)的基础上增加了两个标签:目(order)和科(family),每个图片就有了三个标签,从粗到细依次是:目->科->种。
参与者
200名年龄、性别和教育水平不同的参与者进行了初始测试,以了解他们对鸟类的熟悉程度,存在“长尾”分布。因此,抽取了50位参与者,专业知识遵循高斯分布,将他们分为5个组([第1组,第2组,…,第5组]),组别越大,知识越多。
实验设置
- 第一个问题:从不同级别的标签中选择最合适的一个(或者都不合适,直接跳过问题2到下一张图)
- 第二个问题:你是否觉得多于一个标签更合适。
实验结果
问题一的结果:
问题二的实验结果:
- 无论在第一阶段选择什么标签(“无”除外),大多数参与者都会选择多个标签
- 对于单一标签,知识更多的人倾向于选择更细粒度,知识少的人倾向于选择更粗粒度
- 不管知识的差距,在多个标签下的选择已经大大收敛
4 方法
4.1 多粒度标签联合学习
设置层次结构为2,训练时通过引入超参数来控制每个任务的相对重要性:
α L C E ( y ^ 1 , y 1 ) + β L C E ( y ^ 2 , y 2 ) \alpha L_{CE}(\hat{y}^1,y^1) + \beta L_{CE}(\hat{y}^2,y^2) αLCE(y^

该研究重新定义了细粒度视觉分类问题,引入多粒度标签预测,通过实验发现粗粒度标签不利于细粒度特征学习,而细粒度特征有助于粗粒度分类。作者进行了一系列人类研究,确认多数人偏好多粒度标签。提出的多任务学习框架通过特征级联实现粗细粒度解耦,提高了性能。实验结果表明该方法在多个数据集上优于传统单标签FGVC方法。
最低0.47元/天 解锁文章
891

被折叠的 条评论
为什么被折叠?



