Image Caption简述

最新推荐文章于 2024-03-16 10:00:00 发布

yfraquelle

最新推荐文章于 2024-03-16 10:00:00 发布

阅读量3.7k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：计算机视觉和多媒体计算

本文链接：https://blog.youkuaiyun.com/y_f_raquelle/article/details/82955863

计算机视觉和多媒体计算专栏收录该内容

18 篇文章

订阅专栏

本文介绍了图片标注(Image Caption)技术的发展历程，从最初的RNN Encoder-Decoder模型到引入CNN、LSTM、Attention机制，再到利用多标签学习和多示例学习方法。文中详细解释了这些技术如何帮助计算机理解图像内容，生成准确的文字描述。同时，提到了COCO、Flickr30K等常用数据集，以及相关领域的前沿研究。

Image Caption（图片标注）就是从根据图片生成一句（段）描述文字。对于计算机来说，不仅需要检测出图像中的物体，还需要能理解物体之间的关系，并且需要结合一定自然语言处理的技术。

一、方法

Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation中最初提出RNN的Encoder-Decoder模型。最初的RNN结构中，输入和输出序列必须是等长的，所以需要将原始序列映射为一个不同长度的序列。x为输入，y为输出，输入单词序列经过转换成为word embedding之后通过隐藏层，在最后一个隐藏状态成为一个固定向量表示，如果是用于机器翻译，则再通过Decoder解码成输出合适长度的单词序列。

Show and Tell: A Neural Image Caption Generator中提出将Encoder部分换成一个CNN，抽取一个图像特征向量进入Decoder。这里将Decoder的RNN换成了效果更好的LSTM。单词用嵌入模型表示，词汇表中的每个词都与在训练期间学习的固定长度矢量表示相关联。S是描述的单词，WeS是它们相应的单词的嵌入向量，输出P为模型为句子中的下一个单词生成的概率分布，logP(S)是每个步骤中正确单词的对数似然值，这些项的否定总和就是模型的最小化目标。

Show, Attend and Tell: Neural Image Caption Generation with Visual Attention中引入了Attention机制，即将CNN卷积层的feature map也输入Decoder，让解码器能感知到位置特征。这样，根据权重大小，可以再输出单词时得知关注的图片区域。

What Value Do Explicit High Level Concepts Have in Vision to Language Problems采用多标签学习的方法，提出将分类层的语义特征也输入Decoder，被证明可以大幅提高效果。

Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation将Decoder的RNN部分做了改动，使得能够反过来从文字得到图像特征。Decoder部分在生成单词后保存了这个过程的隐变量u（用于记住生成单词中包含的信息），并用于下一单词的生成，这里u可以用于还原视觉信息 $\tilde{v}$ ，训练时要求 $\tilde{v}$ $\approx$ v。