论文：Visual Grounding with Transformers

最新推荐文章于 2025-04-19 17:39:20 发布

小仙女呀灬

最新推荐文章于 2025-04-19 17:39:20 发布

阅读量3.4k

点赞数 1

分类专栏： Visual grounding 文章标签： transformer 深度学习人工智能计算机视觉

本文链接：https://blog.youkuaiyun.com/m0_38064230/article/details/120967828

版权

本文提出了一种名为VGTR的基于Transformer的视觉接地方法，它独立于预训练检测器和单词嵌入模型，能更好地捕获文本描述指导下的语义区分视觉特征。与传统的基于提案的方法相比，VGTR在多个基准上表现出优越性，能够有效定位文本描述中的对象实例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者

在这里插入图片描述

摘要

本文中，我们提出了一种基于transformer的可视接地方法。与以前的proposal and rank框架（严重依赖预训练对象检测器）或proposal free框架（通过融合文本嵌入来升级现成的单级检测器）不同，我们的方法构建在transformer编码器-解码器之上，独立于任何预训练检测器或单词嵌入模型。我们的方法被称为VGTR——带transformer的视觉接地，旨在在文本描述的指导下学习语义区分视觉特征，而不损害其定位能力。这种信息流使我们的VGTR在捕获视觉和语言模式的上下文级语义方面具有强大的能力，使我们能够聚合描述所隐含的准确视觉线索，以定位感兴趣的对象实例。实验表明，我们的方法在保持快速推理速度的同时，在五个基准上比最新的proposal-free方法有相当大的优势。

Note：分割主要分为两类：基于候选区域的实例分割（proposal-based）和免候选区域的实例分割（proposal-free）。其中，proposal-based先获取场景中的感兴趣的候选区域，如：包括R-CNN,Fast R-CNN,Faster R-CNN and R-FCN等，并在候选区域内对数据进一步预测得到实例标签。考虑到proposal-based 实例分割通常需要2个过程（先得到候选区域，再实例分割），分割过程繁琐，则proposal-free则摒弃了基于候选区域的方式，直接通过数据特征或者结合语义分割结果，得到实例分割结果。如：YOLO and SSD

Introduction

视觉接地的目的是从图像中定位查询语句引用的对象实例。由于其在视觉和语言导航[36]以及自然人机交互方面的巨大潜力，该任务越来越受到学术界和工业界的关注。它可以使许多其他多模态任务受益，例如视觉问答[13]、图像字幕[17]和跨模态检索[29]，仅举几例。
视觉基础是一项具有挑战性的任务。如图1所示，一个对象实例可以由多个引用表达式引用，类似的表达式可以引用不同的实例。因此，它需要全面了解这两种方式，即：。E复杂的语言语义和多样的图像内容，不仅是其中的对象实例，还包括它们之间的关系，以实现成功的视觉基础。更重要的是，模型需要在两种模式之间建立上下文级别的语义对应，因为目标对象是可区分的根据其他对象的视觉上下文（即属性和与其他对象的关系）以及与文本描述的语义概念的对应关系，从其他对象中提取信息。

在这里插入图片描述
图1。视觉接地任务说明。这是非常具有挑战性的，因为一个对象实例可能会被多个查询语句引用，而类似的表达式可能会引用不同的实例。我们的方法能够准确地定位引用的实例，即使对于复杂的表达式也是如此。绿色盒子是基本真理；蓝色和红色框是我们方法的结果。框和表达式之间的对应关系由其颜色标识。

早期的尝试[22,16]将视觉基础视为基于文本的图像检索的特例，并将其作为给定图像中一组候选区域的检索任务。他们利用现成的对象检测器或建议方法生成一组候选对象区域，然后根据它们与引用表达式的相似性对它们进行排序。将检索排名靠前的一个。这些方法严重依赖于预训练检测器，通常忽略对象的视觉上下文，这限制了它们的性能，尤其是当引用表达式是包含对象实例复杂描述的长句时。
为了解决这些限制，一些作品试图对所有proposal[23]或整个图像[41,9]的视觉背景进行编码。在它们的设置中，所有建议或整个图像的特征都用作对象实例的支持上下文。这种策略忽略了对象之间的关系建模，容易造成信息冗余的困境，即信息冗余。E并不是所有的方案都能为确定目标对象提供有用的线索。为了解决这个问题，一些工作侧重于选择proposal的子集，并对它们之间的关系进行建模，以形成上下文特征。例如，[4,52]在语言描述的指导下关注少量proposal；[40、44、43]根据图像中的空间关系过滤对象建议.

虽然用proposal子集总结参与的对象可以实现更具区别性的特征学习，但这些方法仍然难以实现视觉和语言之间的语义对齐。除此之外，其中许多都受到候选对象proposal质量的限制，并且在生成和处理这些候选对象时会产生额外的计算成本。最近，许多工作[12,5,33,46,45]转向简化视觉接地管道，放弃proposal生成阶段，直接定位参考对象。这个新的管道在目标检测网络上执行手术，并植入引用表达式的特征来增强它。尽管有优雅的结构和推理效率，视觉和文本上下文的特征是相互独立的。如何更有效地学习和融合这两个特性仍然是一个有待解决的问题。
在这项工作中，我们通过开发一个基于端到端transformer的接地框架（称为可视接地变压器（VGTR））来缓解上述问题，该框架能够在不生成object proposal的情况下捕获文本指南DVISUALContext。我们的模型的灵感来源于Transformers在自然语言处理[38]和计算机视觉[11,39,20,3,53,8,27]方面的最新成就。与最近流行的建立在现成检测器之上的接地模型不同，我们提议重组的transformer编码器，以同时处理视觉和语言模式，目的是理解自然语言的描述，获得更多有区别的视觉证据，以减少语义歧义。
具体地说，如图2所示，我们的框架由四个主要模块组成：用于提取视觉和文本标记的基本视觉编码器，用于在视觉语言上执行联合推理和跨模态交互的基础编码器，AgroundingDecoder将文本标记附加为接地查询，并将输出提供给后续头部，以便直接执行预测。我们框架的核心是具有视觉和文本分支的基础编码器，其中利用两种自我注意机制，即语言自我注意机制和文本引导的视觉自我注意机制来分别地理解语言描述的语义并学习文本引导的上下文感知视觉特征。

Our contributions are summarized as follows：
- 我们提出了可视接地Transformer（VGTR），一种有效的端到端框架来解决可视接地问题。我们的模型独立于预训练检测器（如YOLO[30]）和语言嵌入模型（如BERT[10]。
- 我们提议在语言描述的指导下学习视觉特征，使模型能够捕获与语言语义一致的视觉上下文，从而为参考对象的基础提供更准确的线索。
- 我们的方法在五个视觉基础基准上比最先进的无提案方法有相当大的优势，包括Flickr30K实体[26]、RefCOCO[49]、RefCOCO[49]、RefCoCoCog[22]和最近发布的Cops参考文献[6]。

Related work

在本节中，我们将回顾有关视觉接地的文献以及视觉变压器的最新进展。

2.1Visual Grounding

社区中经常研究两类视觉基础方法： propose-and-rank 方法（也称为两阶段方法）和无建议方法（也称为一阶段方法）。
propose and rank方法[4,9,52,40,48,44,43]首先利用现成的检测器或建议生成器从图像生成一组候选对象建议，然后根据语言描述对候选对象进行评分，并选择排名靠前的一个。这些方法受到预训练检测器或方案生成器性能的限制。只有在第一阶段正确地提取了地面真值对象，下面的排序和选择阶段才起作用。
无建议的方法[5,46,33,45]专注于直接定位参考对象，而无需事先生成候选对象。例如，Yanget al.[46]通过将文本特征融合到视觉特征中来重建YOLOv3探测器[30]，并用softmax函数替换最后的sigmoid层，以直接预测目标对象。[45]改进了这个简单而有效的范例，其中建议以迭代方式在图像和语言查询之间进行推理，以逐步减少基础歧义。该策略对于长查询场景特别有用。Sadhuet al.[33]提出了一种称为ZSGNet的单级模式，以解决零炮视觉接地的挑战性问题。这项工作实现了令人鼓舞的性能在zero-shot设置。
Proposal-free范例在准确性和参考速度方面都显示出巨大的潜力，现在正成为社区中的主导框架。关于视觉接地任务及其当前解决方案的全面调查，请读者参考[28]。

2.2Visual Transformer

Transformer[38]最初是为自然语言处理而开发的，是一种基于自我注意机制的深层神经网络。受其强大表示能力的鼓舞，研究人员试图将该体系结构扩展到视觉任务中，如目标检测[3,53,35,8]、分割[39,27]、车道检测[20]和其他[37]。Carionet等人[3]提出了一种新的基于transformer编码器-解码器体系结构的对象检测框架DETR。受[7]的启发，Zhuet al.[53]引入了可变形卷积以减轻DETR的计算负担，从而以更少的训练成本实现更好的性能。Sunet等人[35]开发了一种仅使用编码器的DETR，其性能有所提高，但训练时间更短。从NLP中的预训练变压器中得到启发，Dai等人[8]开发了DETR的无监督训练策略，实现了更快的收敛和更高的精度。这些目标检测方法将图像特征映射重塑为一组标记，并达到与最新技术相当的精度。
除了检测，其他视觉任务也受到变形金刚的启发。Liuet等人[20]使用transformer学习更丰富的车道结构和上下文，并显著提高车道检测性能。Wanget al.[39]将变压器引入全景分割，并通过新颖的双路径变压器设计简化电流管道，从而获得卓越的性能。Timet等人[27]提出了一种基于注意的转换器，用于解决微观结构中细胞的实例分割问题。为了解决人类交流中的多模态问题，Tsaiet等人[37]提出了一种多模态转换器，用于对齐多模态语言序列。
受这些成就的启发，我们相信transformer可以提供一个极好的解决方案来缩小视觉和语言的语义差距。

Approach

本节将详细介绍基于transformer的visual-grounding模型。
我们的目标是通过自我注意机制，在语言表达的指导下，提取高层次的、上下文感知的视觉特征。为了实现这一点，我们首先使用CNN主干提取图像的相对低级和上下文受限的视觉特征映射，并使用基于RNN的软解析器计算相应可变长度语言描述的一定数量的语言嵌入向量。然后，视觉特征被转换和重塑为一组视觉标记，语言嵌入向量被视为一组文本标记，这两个标记都被馈送到重构的转换器编码器中。编码器通过两个不同的分支并行处理视觉和文本标记，其中引入了文本引导的视觉自我注意机制来学习文本引导的上下文感知视觉特征。在编码器步骤之后，处理后的文本标记和视觉标记分别用作接地查询和编码存储器，发送到转换器解码器进行回归，直接定位目标对象。框架的总体架构如图2所示。我们将在以下小节中详细介绍每个模块。