论文笔记：Your “Flamingo” is My “Bird”: Fine-Grained, or Not

最新推荐文章于 2025-03-28 21:55:07 发布

原创

最新推荐文章于 2025-03-28 21:55:07 发布 · 1.6k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#计算机视觉 #人工智能

该研究重新定义了细粒度视觉分类问题，引入多粒度标签预测，通过实验发现粗粒度标签不利于细粒度特征学习，而细粒度特征有助于粗粒度分类。作者进行了一系列人类研究，确认多数人偏好多粒度标签。提出的多任务学习框架通过特征级联实现粗细粒度解耦，提高了性能。实验结果表明该方法在多个数据集上优于传统单标签FGVC方法。

Your “Flamingo” is My “Bird”: Fine-Grained, or Not

2021 CVPR，这还是第一篇看到还有从人工研究实验到模型的论文

文章目录

Your “Flamingo” is My “Bird”: Fine-Grained, or Not

0 摘要

本文动机：在不同的专业水平下，如何为定制不同的细粒度定义。重新设想了FGVC的设置，从单标签分类到从上到下遍历预定义的从粗到精标签层次结构。

进行了全面的人类研究，确认了大多数参与者都喜欢多粒度标签。
关键直觉：粗粒度标签的预测不利于细粒度特征学习，而细粒度特征有利于粗粒度分类。措施：
1. 用特定级别的分类将粗粒度特征与细粒度特征分开
2. 细粒度的特征可以参与粗粒度的标签预测
实验表明卓越的性能，比单标签FGV表现好。简单容易实施，无参数。
code：https://github.com/PRIS-CV/Fine-Grained-or-Not

1 引言

本文没有刻意追求性能的提高，而是对粒度的基本原理，对细粒度分类本身的定义提出了疑问。用于目前数据集的细粒度专家级标签是否确实传达了最终的用户习惯。答案是主观的，而且和人的知识背景密切相关。那么，如何针对细粒度内容的主观定义，设计出最适合FGVC实际使用场景的系统？也就是“界门纲目科属种”，对于普通人来说，那个级别是最合适的。

招募志愿者进行研究。
根据结果扩展了细粒度视觉分类问题，从单标签分类问题扩展到层次结构上的多个标签预测问题。最容易的做法是在每个层级上都进行分类，尽管确实可以作为基准，但是并不能从标签的层次关系中受益。

两个关键观察：

粗粒度标签的预测不利于细粒度特征学习
细粒度特征有利于粗粒度分类

基于上述观察做出的举措：

使用了一个多任务学习框架，执行逐级特征分解，避免粗对细的不利影响。
在前向传播时，用细粒度特征通过特征级联参与粗粒度标签的分类。

本文贡献：

重新设想FGVC问题的设置，适应“细粒度”的主观定义。用从粗到细、从上到下的层次结构取代单标签分类。
发现了对内在的粗细层次关系的重要见解
通过将粗细粒度解耦，实现出色的性能

2 相关研究

FGVC

多任务学习MTL

多任务学习旨在利用任务之间的公共信息来提高模型的通用性。在深度学习中，通过设计和优化网络鼓励在多任务监督下共享表示形式。硬参数共享是将参数集划分为共享的和特定于任务的算子。软参数共享中，每个任务都有参数集，引入正则化来鼓励跨任务。

3 人为研究

数据

在CUB数据集上在种(specie)的基础上增加了两个标签：目(order)和科(family)，每个图片就有了三个标签，从粗到细依次是：目->科->种。

参与者

200名年龄、性别和教育水平不同的参与者进行了初始测试，以了解他们对鸟类的熟悉程度，存在“长尾”分布。因此，抽取了50位参与者，专业知识遵循高斯分布，将他们分为5个组（[第1组，第2组，…，第5组]），组别越大，知识越多。

实验设置

第一个问题：从不同级别的标签中选择最合适的一个（或者都不合适，直接跳过问题2到下一张图）
第二个问题：你是否觉得多于一个标签更合适。

实验结果

问题一的结果：

问题二的实验结果：

无论在第一阶段选择什么标签（“无”除外），大多数参与者都会选择多个标签
对于单一标签，知识更多的人倾向于选择更细粒度，知识少的人倾向于选择更粗粒度
不管知识的差距，在多个标签下的选择已经大大收敛

4 方法

4.1 多粒度标签联合学习

设置层次结构为2，训练时通过引入超参数来控制每个任务的相对重要性：
$\alpha L_{CE}(\hat{y}^1,y^1) + \beta L_{CE}(\hat{y}^2,y^2)$

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。