Image Caption 2021最新整理：数据集 / 文献 / 代码

最新推荐文章于 2025-09-20 09:50:37 发布

原创

最新推荐文章于 2025-09-20 09:50:37 发布 · 2.7w 阅读

·

48

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#自然语言处理 #深度学习 #python #计算机视觉 #多模态

文章目录

引言

最近在调研image caption相关文献，这里主要整理下当前主要的数据集，借此了解下这个任务的技术现状。

image caption是指用自然语言描述图像中的视觉内容的任务，通常采用一个视觉理解系统和一个能够生成有意义的、语法正确的句子的语言模型（describing images with syntactically and semantically meaningful sentences.）。常被称为看图说话、图像描述、图像字幕等。

Image caption任务的目标是找到最有效的pipeline来处理输入图像，表示其内容，并通过在保持语言流畅性的同时生成视觉和文本元素之间的连接，将其转换为一组单词序列¹。

数据集概览

早期的image caption主要采用Flickr30K和Flickr8K数据集，这个数据集图片来源于Flickr网站。

目前比较常用的数据集是COCO Captions、Conceptual Captions (CC)，包含人、动物和普通日常物品之间的复杂场景的图像。

COCO Captions、Conceptual Captions (CC)、VizWiz、TextCaps、Fashion Captioning、CUB-200等数据集的标注样例如下图（a）所示，数据集中语料库的高频词云如下图（b）所示¹，可以反映数据集中主要目标类别的分布。
在这里插入图片描述

标注方式

COCO Captions、Conceptual Captions (CC)数据集中对图像描述的标注，是基于整幅图像的。Flickr30K Entities标注了Flickr30K中caption里提到的名词，并标注了对应的bbox。Visual Genome数据集提供了描述图像中区域的短语，并使用这些区域来生成一个场景图（scene graph）。Localized Narratives为每个单词都提供了基于其跟踪片段所表示的图像中的一个特定区域，包括名词、动词、形容词、介词等。²
在这里插入图片描述

Microsoft COCO Captions

Microsoft COCO Captions: Data Collection and Evaluation Server
[website]
[pap

最低0.47元/天解锁文章

评论 22

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。