(六十五):Image Captioning: Transforming Objects into Words

本文介绍了一种新的图像字幕模型——对象关系转换器,它通过在Transformer中集成几何注意模块,结合目标检测器获取的物体特征,增强了对输入对象间空间关系的理解。实验证明,这种几何注意力显著提升了MS-COCO数据集上的标题生成质量,包括CIDEr-D、SPICE等指标。

  • 出处:
  • 代码:
  • 题目:
  • 主要内容:

Abstract

图像字幕模型通常遵循编码器-解码器体系结构,使用抽象图像特征向量作为编码器的输入。
最成功的算法之一是:从目标检测器获得的区域建议中提取的特征向量。在这项工作中,我们介绍了对象关系转换器,它建立在这种方法之上,通过几何注意显式地合并关于输入检测对象之间的空间关系的信息。定量和定性的结果表明了这种几何注意对图像标题的重要性,导致了MS-COCO数据集上所有常见标题指标的改进。代码可在https:// github.com/yahoo/object_relation_transformer。

1. Introduction

图像标题——提供图像内容的自然语言描述的任务——位于计算机视觉和自然语言处理的交叉点。由于这两个研究领域都非常活跃,并在最近取得了许多进展,图像字幕的进展自然也随之取得了进展。在计算机视觉方面,改进的卷积神经网络和目标检测体系结构有助于改进图像字幕系统。在自然语言处理方面,更复杂的序列模型,如基于注意力的循环神经网络,同样也能产生更准确的标题。

受神经机器翻译的启发,大多数传统的图像字幕系统利用编码器-解码器框架,在这个框架中,输入的图像被编码成包含在图像中的信息的中间表示,然后解码成描述性文本序列。这种编码可以包含CNN的单个特征向量输出(如[25]),也可以包含从图像中不同区域获得的多个视觉特征。在后一种情况下,这些区域可以被均匀采样(如[26]),或者由目标探测器(如[2])引导,这已经被证明可以产生更好的性能。
虽然这些基于检测的编码器代表了最先进的技术,但目前它们没有利用有关被检测对象之间的空间关系的信息,如相对位置和大小。然而,这些信息对于理解图像中的内容通常是至关重要的,人类在对物理世界进行推理时也会使用这些信息。例如,相对位置可以帮助区分“骑马的女孩”和“站在马旁边的女孩”。同样,相对大小可以帮助区分“弹吉他的女人”和“弹尤克里里的女人”。结合空间关系已被证明可以提高目标检测本身的性能,如[9]所示。此外,在机器翻译编码器中,位置关系经常被编码,特别是在Transformer[23]的情况下。
因此,探测物体的相对位置和大小的使用也应该有利于图像字幕视觉编码器,如图1所示。

在这项工作中,我们提出并演示了对象空间关系建模在图像标题中的使用,特别是在Transformer编码器-解码器体系结构中。这是通过在Transformer编码器中合并[9]的对象关系模块来实现的。本文的贡献如下:
•我们介绍了对象关系转换器(Object Relation Transformer),这是一种专为图像字幕设计的编码器-解码器架构,它通过几何注意整合了输入检测对象之间的空间关系信息。
•通过基线比较和对MS-COCO数据集的消融研究,我们定量地证明了几何注意的有用性。
•最后,我们定性地表明,几何注意力可以导致改进的标题,表明增强的空间意识。

2. Related Work

许多早期用于图像标题的神经模型[17,12,5,25]使用代表整个图像的单一特征向量编码视觉信息,因此没有利用物体及其空间关系的信息。[11]中的Karpathy和Fei-Fei,作为这种全局表示方法的一个显著例外,利用R-CNN对象检测器[7]从多个图像区域中提取特征,并为这些区域生成单独的标题。然而,由于为每个区域生成了单独的标题,检测到的对象之间的空间关系没有建模。他们后续密集的字幕工作[10]也是如此,它提供了一种端到端方法来获取与图像中不同区域相关的字幕。Fang等人在[6]中通过首先检测与图像中不同区域相关联的单词来生成图像描述。利用全卷积神经网络对图像进行空间联想,生成目标词的空间反应图。在这里,作者再次

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Laura_Wangzx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值