用于生成图像描述的深度视觉语义对齐
摘要:我们提出了一个模型,该模型生成图像及其区域的自然语言描述。 我们的方法利用图像数据集及其句子描述来了解语言和视觉数据之间的模态对应关系。 我们的对齐模型基于图像区域上的卷积神经网络,句子上的双向递归神经网络以及通过多模态嵌入将两种模态对齐的结构化目标的新颖组合。 然后,我们描述一种多模态递归神经网络架构,该架构使用推断的路线来学习生成图像区域的新颖描述。 我们证明,在Flickr8K,Flickr30K和MSCOCO数据集的检索实验中,我们的比对模型可产生最新的结果。 然后,我们表明,在完整图像和区域级注释的新数据集上,生成的描述明显优于检索基准。
引言
快速浏览图像就足以使人们指出并描述有关视觉场景的大量细节。 但是,对于我们的视觉识别模型来说,这种非凡的能力已被证明是一项艰巨的任务。 在视觉识别方面,以前的大部分工作都集中在用固定的视觉类别对图像进行标记上,并且在这些工具上已经取得了很大的进步。 但是,尽管虚拟概念的封闭式词汇构成了一个方便的建模假设,但与人类可以组成的大量丰富的描述相比,它们具有很大的局限性。
已经开发出一些解决生成图像描述挑战的开拓性方法。 但是,这些模型通常依赖于硬编码的视觉概念和句子模板,这对其种类施加了限制。 此外,这些作品的重点是将复杂的视觉场景简化为一个句子,我们认为这是不必要的限制。
在这项工作中,我们努力朝着图1的目标迈进。动机/概念图:我们的模型将语言视为丰富的标签空间,并生成图像区域的描述。
生成图像的密集描述(图1)。 达到此目标的主要挑战是设计一个模型,该模型足够丰富,可以同时推理图像的内容及其在自然语言领域中的表示形式。 此外,该模型应没有关于特定硬编码模板,规则或类别的假设,而应依赖于从训练数据中学习。 第二个实际挑战是图像标题的数据集可以在Internet上大量使用[21、58、37],但是这些描述多路复用了一些在图像中位置未知的实体的提及。
我们的核心见解是,我们可以通过将句子视为弱标签来利用这些大型图像句子数据集,其中单词的连续片段对应于图像中某些特定但未知的位置。 我们的方法是推断这些对齐方式,并使用它们来学习描述的生成模型。 具体来说,我们的贡献是双重的:
- 我们开发了一个深层神经网络模型,该模型可以推断出句段和它们所描述的图像区域之间的潜在对齐方式。我们的模型通过共同的多模式嵌入空间和结构化目标将这两种模式关联起来。 我们在超越现有技术的图像句子检索实验中验证了这种方法的有效性。
- 我们介绍了一种多模式递归神经网络体系结构,该体系结构可获取输入图像并以文本形式生成其描述。 我们的实验表明,生成的句子明显优于基于检索的基线,并且产生了合理的定性预测。 然后,我们在推断的对应关系上训练模型,并在区域级注释的新数据集上评估其性能。
2、相关工作
- 密集的图像注释。 我们的作品有一个高层次的目标,即在我们面前的许多作品中对图像的内容进行密集注释。 巴纳德等研究了单词和图像之间的多峰对应关系,以注释图像片段。 数篇著作研究了整体场景理解的问题,其中可以推断出场景的类型,对象及其在图像中的空间支持。 但是,这些工作的重点是使用一组固定的类别正确标记场景,对象和区域,而我们的重点是对区域进行更丰富和更高级的描述。
- 生成描述。 还探讨了用句子描述图像的任务。 许多方法将任务摆成一个检索问题,将训练集中最兼容的注释转移到测试图像上,或者破坏训练注释。 并缝合在一起。 有几种方法基于固定模板生成图像标题,这些模板基于图像的内容或生成语法进行填充,但是这种方法限制了 可能的输出。 与我们关系最密切的是Kiros等。 [26]开发了一个对数双线性模型,可以生成图像的完整句子描述,但是他们的模型使用固定的窗口上下文,而我们的递归神经网络(RNN)模型则判断了下一个单词的概率分布 在所有先前生成的单词上。 在提交这项工作期间,在Arxiv上出现了多个密切相关的预印本,其中一些也使用RNN生成图像描述。 我们的RNN比大多数这些方法都更简单,但在性能上也会受到影响。 我们在实验中量化此比较。
- 在图像中使用自然语言。我们的方法受到Frome等人的启发。 [16]他们通过语义嵌入将单词和图像关联起来。 Karpathy等人的工作更紧密相关。 [24],他们将图像和句子分解成碎片,并使用排名目标推断出它们的模态对齐。 与基于基础依赖树关系的模型相反,我们的模型将句子的连续片段对齐,这些片段更有意义,更可解释且长度不固定。
- 视觉和语言领域的神经网络。 已经开发出了多种方法来在更高层次的表示中表示图像和单词。 在图像方面,卷积神经网络(CNN)[32,28]最近作为图像分类和物体检测的强大模型类别而出现[45]。 在感觉方面,我们的工作利用预训练的单词向量[41,22,3]来获得单词的低维表示。 最后,递归神经网络先前已在语言建模中使用[40,50],但我们还在图像上附加了这些模型的条件。
3、我们的模型
- 概述。 我们模型的最终目标是生成图像区域的描述。 在训练期间,我们模型的输入是一组图像及其相应的句子描述(图2)。 我们首先提出一个模型,该模型通过多模式嵌入将句子摘要与它们描述的视觉区域对齐。 然后,我们将这些对应关系视为第二种多模态递归神经网络模型的训练数据,该模型学习生成摘要。
- 3.1 学习对齐视觉和语言