《Connecting Vision and Language with Localized Narratives》简要

文章汉化系列目录



摘要

我们提出了一种新的多模态图像注释形式——Localized Narratives(局部叙述),将视觉和语言相结合。我们要求注释员在描述图像时用语音讲述,同时将鼠标悬停在他们正在描述的区域上。由于语音与鼠标指针是同步的,我们能够为描述中的每个词汇进行定位。这种密集的视觉关联以每个词汇对应的鼠标轨迹段形式呈现,这是我们的数据独有的特点。我们对849k(84.9万)张图像进行了Localized Narratives注释,包括整个COCOFlickr30kADE20K数据集,以及Open Images中的671k(67.1万)张图像,所有这些数据都已公开发布。我们对这些注释进行了广泛分析,显示它们具有多样性、准确性和高效性。我们还通过受控图像描述的应用展示了这些注释的实用性。

引言

我们的大部分语言都植根于我们周围的视觉世界。研究这一联系的一种流行方式是图像描述(Image Captioning),该方法利用图像与人工撰写的文本描述配对的数据集进行研究 [11,66,51]。然而,许多研究人员希望能够实现更深层次的视觉关联,即将描述中的特定词汇与图像中的特定区域相连接 [36,37,49,50]。因此,Flickr30k Entities [45] 通过将描述中的名词与图像中的边界框相连接,扩展了 Flickr30k [66]。然而,这些关联仍然是稀疏的,且许多重要方面未能得到定位,比如描述名词间关系的词汇(例如 “a woman holding a balloon” 中的 “holding”)。Visual Genome [31] 提供了区域的简短描述,但这些词汇并未单独进行定位。

在本文中,我们提出了Loc

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值