Image Caption 2021最新整理:数据集 / 文献 / 代码

引言

最近在调研image caption相关文献,这里主要整理下当前主要的数据集,借此了解下这个任务的技术现状。

image caption是指用自然语言描述图像中的视觉内容的任务,通常采用一个视觉理解系统和一个能够生成有意义的、语法正确的句子的语言模型(describing images with syntactically and semantically meaningful sentences.)。常被称为看图说话、图像描述、图像字幕等。

Image caption任务的目标是找到最有效的pipeline来处理输入图像,表示其内容,并通过在保持语言流畅性的同时生成视觉和文本元素之间的连接,将其转换为一组单词序列1


数据集概览

早期的image caption主要采用Flickr30K和Flickr8K数据集,这个数据集图片来源于Flickr网站。

目前比较常用的数据集是COCO Captions、Conceptual Captions (CC),包含人、动物和普通日常物品之间的复杂场景的图像。

COCO Captions、Conceptual Captions (CC)、VizWiz、TextCaps、Fashion Captioning、CUB-200等数据集的标注样例如下图(a)所示,数据集中语料库的高频词云如下图(b)所示1,可以反映数据集中主要目标类别的分布。
在这里插入图片描述

标注方式

COCO Captions、Conceptual Captions (CC)数据集中对图像描述的标注,是基于整幅图像的。Flickr30K Entities标注了Flickr30K中caption里提到的名词,并标注了对应的bbox。Visual Genome数据集提供了描述图像中区域的短语,并使用这些区域来生成一个场景图(scene graph)。Localized Narratives为每个单词都提供了基于其跟踪片段所表示的图像中的一个特定区域,包括名词、动词、形容词、介词等。2
在这里插入图片描述
在这里插入图片描述


Microsoft COCO Captions

Microsoft COCO Captions: Data Collection and Evaluation Server
[website]
[pap

评论 22
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值