《Connecting Vision and Language with Localized Narratives》简要-优快云博客

文章汉化系列目录

文章目录

文章汉化系列目录
摘要
引言
6 结论

摘要

我们提出了一种新的多模态图像注释形式——Localized Narratives（局部叙述），将视觉和语言相结合。我们要求注释员在描述图像时用语音讲述，同时将鼠标悬停在他们正在描述的区域上。由于语音与鼠标指针是同步的，我们能够为描述中的每个词汇进行定位。这种密集的视觉关联以每个词汇对应的鼠标轨迹段形式呈现，这是我们的数据独有的特点。我们对849k（84.9万）张图像进行了Localized Narratives注释，包括整个COCO、Flickr30k和ADE20K数据集，以及Open Images中的671k（67.1万）张图像，所有这些数据都已公开发布。我们对这些注释进行了广泛分析，显示它们具有多样性、准确性和高效性。我们还通过受控图像描述的应用展示了这些注释的实用性。

引言

我们的大部分语言都植根于我们周围的视觉世界。研究这一联系的一种流行方式是图像描述（Image Captioning），该方法利用图像与人工撰写的文本描述配对的数据集进行研究 [11,66,51]。然而，许多研究人员希望能够实现更深层次的视觉关联，即将描述中的特定词汇与图像中的特定区域相连接 [36,37,49,50]。因此，Flickr30k Entities [45] 通过将描述中的名词与图像中的边界框相连接，扩展了 Flickr30k [66]。然而，这些关联仍然是稀疏的，且许多重要方面未能得到定位，比如描述名词间关系的词汇（例如 “a woman holding a balloon” 中的 “holding”）。Visual Genome [31] 提供了区域的简短描述，但这些词汇并未单独进行定位。

在本文中，我们提出了Loc