极市平台 | Pattern Recognition|同时关注局部和全局信息,利用注意力抓取不同粒度的视觉信息来描述图片

本文来源公众号“极市平台”,仅用于学术分享,侵权删,干货满满。

原文链接:Pattern Recognition|同时关注局部和全局信息,利用注意力抓取不同粒度的视觉信息来描述图片

极市导读

本文提出了LSTNet,一种新型的局部敏感Transformer网络,用于图像字幕生成,通过局部敏感注意力和局部敏感融合两种机制增强局部视觉建模,提升了字幕生成的性能。实验结果显示,LSTNet在多个数据集上超越了现有的最先进模型,证明了其在图像字幕任务中的有效性和泛化能力。

本文研究了利用网格特征进行图像字幕的局部视觉建模,这对生成准确且详细的字幕至关重要。为了实现这一目标,我们提出了一种具有两种新颖设计的局部敏感Transformer网络(LSTNet),分别是局部敏感注意力(LSA)和局部敏感融合(LSF)。

LSA 用于通过建模每个网格与其邻居之间的关系来进行Transformer中的层内交互。它降低了字幕过程中局部物体识别的难度。LSF 用于层间信息融合,它聚合了不同编码器层的的信息,以实现跨层语义互补。

凭借这两种新颖的设计,所提出的 LSTNet 能够对网格特征的局部视觉信息进行建模,以提高字幕质量。为了验证 LSTNet,我们在竞争性 MS-COCO 基准上进行了大量实验。

实验结果表明,LSTNet 不仅能够进行局部视觉建模,而且在离线和在线测试中都优于许多最先进的字幕模型,例如 134.8 CIDEr 和 136.3 CIDEr。此外,LSTNet 的泛化能力也在 Flickr8k 和 Flickr30k 数据集上得到了验证。

  • 代码:https://github.com/xmu-xiaoma666/LSTNet

  • 论文:https://arxiv.org/abs/2302.06098

@article{ma2023towards,  
  title={Towards local visual modeling for image captioning},  
  author={Ma, Yiwei and Ji, Jiayi and Sun, Xiaoshuai and Zhou, Yiyi and Ji, Rongrong},  
  journal={Pattern Recognition},  
  volume={138},  
  pages={109420},  
  year={2023},  
  publisher={Elsevier}  
}  

1. 绪论

图像标题生成是指为给定图像生成一个流畅的句子来描述图像。近年来,该领域取得了快速发展,这得益于大量创新方法 [1,2] 和数据集 [3,4] 的支持。

受自下而上注意机制 [5] 的巨大成功启发,大多数现有的图像标题生成方法采用由对象检测器提取的区域特征作为视觉表示,例如 Faster R-CNN [6]。由于检测器是在大规模视觉基因组数据集 [7] 上预训练的,因此它可以生成图像中显著区域的判别性表示,并为标题生成提供完整的对象信息。为此,基于区域特征 [2,8,9] 在图像标题生成方面取得了显著进展。

为了弥补上述限制,一些研究开始重新审视网格特征的使用。Jiang 等人 [10] 研究了对象检测器的网格特征,以进一步提高视觉问答 (VQA) 任务的性能。RSTNet [11] 和 DLCT [12] 首次在类似 Transformer 的网络中采用网格特征,在图像标题生成方面取得了令人印象深刻的性能。然而,类似 Transformer 的架构不利于感知完整对象。具体而言,如图 1 (b) 所示,一个完整的对象可能会在二维空间中被划分为多个相邻的网格,而 Transformer 中的扁平化操作不可避免地破坏了网格特征的局部关系。同时,最近的进展 [13] 也表明,原始的 Transformer 在局部视觉建模方面效率较低。

图 1. (a) Transformer 分别使用区域特征和网格特征生成的标题。(b) 区域特征通常包含完整的物体信息,而网格特征则更加碎片化。我们的 LSA 有助于通过对相邻网格关系的建模来重建完整的物体信息。

然而,区域特征仍然存在明显的缺陷。具体来说,它们是从图像的显著区域中提取出来的,因此往往会忽略背景中的上下文信息。

基于以上分析,我们观察到区域特征和网格特征各有优缺点。区域特征包含显式的物体信息,但缺乏背景和关系信息。相反,网格特征则包含所有信息,但一个物体可能会被分成多个网格。结果,大多数语义信息被破坏,这使得推理更加困难。一个直接的解决方案是同时使用区域特征和网格特征来享受两种特征的优势,例如 DLCT [12] 和 GRIT [14]。然而,这将导致显著更高的计算量和更长的训练时间,因为模型需要同时处理两种特征。一个更有效的方法是在网格特征上对局部信息进行建模,以弥补物体信息不足。

因此,我们在本文中提出了一种新颖的局部敏感 Transformer 网络 (LSTNet)。具体来说,LSTNet 加强了局部建模,以分别从层内交互和层间融合的角度感知物体级信息。对于层内交互,我们提出了一种称为局部敏感注意力 (LSA) 的新型多分支模块,以从不同的感受野中感知细粒度的局部信息,并增强每个网格与其邻居之间的交互。值得注意的是,LSA 在推理过程中可以重新参数化为单分支结构,从而减少多尺度感知的额外开销。对于层间融合,我们设计了一个局部敏感融合 (LSF) 模块,该模块可以对齐和融合来自不同层的网格特征,以进行跨层语义互补。凭借这些新颖的设计,LSTNet 不仅提高了局部视觉建模的能力,而且大大提高了生成字幕的质量。在具有竞争力的 MS-COCO 基准测试中,LSTNet 在离线和在线测试中均表现出优异的性能,即 134.8 CIDEr 和 136.3 CIDEr。除了在 MS-COCO 数据集上表现出色外,LSTNet 的泛化能力也在 Flickr8k 和 Flickr30k 数据集上得到了验证。

总结一下,我们的贡献有三方面:

  • 为了仅用网格特征来感知物体和上下文信息,我们提出了一种用于图像字幕的新型 LSTNet。LSTNet 不仅提高了模型的局部感知能力,而且在具有高度竞争力的 MS-COCO 基准测试中,其性能优于最近提出的许多方法。

  • 我们提出了一种局部敏感注意 (LSA) 用于 Transformer 中的层内视觉建模,它是一个重新参数化的模块,用于增强每个网格特征与其局部邻居之间的交互。

  • 我们提出了一种局部敏感融合 (LSF) 来聚合层间物体语义信息以进行图像字幕,这有利于层间语义理解。

2. 相关工作

2.1. 图像字幕

图 2. 图像字幕的 CNN-RNN 模型 (a)、基于 Transformer 的模型 (b) 和 LSTNet (c) 的说明。

图像字幕是一项具有挑战性的任务,人们付出了巨大的努力来解决这个问题。经过多年的发展,我们可以观察到许多方法 [5,8,11,15–18] 取得了巨大进步。现有的图像字幕方法可以大致分为两类:1) CNN-RNN 模型,2) 基于 Transformer 的模型。如图 2(a) 所示,CNN-RNN 模型使用 CNN 将图像编码成矢量表示,然后采用基于 RNN 的解码器来融合这些矢量表示,为输入图像提供内容相关的描述。具体来说,Vinyals 等人 [15]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值