论文阅读：TransFG: A Transformer Architecture for Fine-grained Recognition

最新推荐文章于 2024-04-27 09:46:04 发布

原创最新推荐文章于 2024-04-27 09:46:04 发布 · 1.9k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #transformer

CV 专栏收录该内容

2 篇文章

订阅专栏

该博客介绍了一种用于细粒度视觉分类（FGVC）的新型Transformer框架——TransFG。TransFG利用Transformer的自注意力机制，通过部分选择模块（PSM）和对比特征学习来增强对关键图像区域的识别。它通过选择高权重token并应用对比损失来改进特征学习，从而提升网络区分微妙类间差异的能力。实验部分展示了TransFG在数据集上的表现。

目录

用细粒度识别Transformer架构

2.1 大致流程

2.2 步骤分解

用细粒度识别Transformer架构

一、动机

由于固有的微妙的类间差异，从子类别中识别对象的细粒度视觉分类（FGVC）是一项非常具有挑战性的任务。通过关注如何定位最具辨别力的图像区域，并依靠它们来提高网络捕获细微差异的能力来解决这个问题。Transformer的自注意力机制将每个token标记链接到分类标记，可以直观的将注意力链接的强度视为token重要性的指标。提出一种新的基于Transformer的框架TransFG。

二、方法

2.1 大致流程

图像序列化——碎片嵌入——TransFG

2.2 步骤分解

1、图像序列化

为了保留局部相邻结构，采取滑动窗口生成重叠碎片。滑动窗口大size为P，step为S；因此两个相邻的碎片共享一个大小为（P-S）*P的重叠区域

2、碎片嵌入

将可训练的碎片映射到潜在的D维嵌入空间，将可学习的位置嵌入添加到碎片嵌入中以保留位置信息。

3、TransFG层

ViT回顾：

单个Transformer层可以表示成如下：

TransFG主要有两部分不同：部分选择模块（PSM)和对比特征学习

部分选择模块：

为了充分利用注意力信息，将改变最后一层的输入，对最后一层前面的所有层的权重累乘，选出

然后选择权重最大的A_k个token作为最后一层的输入。

对比特征学习：

因为简单的交叉熵损失函数不足以完全监督特征学习，因为子类别之间的差异可能非常小。
采用对比损失最小化不同标签对应的分类token的相似度，最大化具有相同标签y的样的分类token的相似度

z：token y：标签 sim()：相似性函数

总之，最后的模型是用交叉熵损失和对比损失的综合训练的：（trick：可以用两个损失函数结果的运算来构成一个“新的”损失函数）

三、实验

3.1 数据集

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。