《Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models》(2018 CVPR)
这篇文章提出了一种改进的跨模态检索方法,即,将生成式模型纳入文本视觉特征嵌入中,以进行跨模态检索。
传统的跨模态检索用的都是高层的全局抽象特征,而这篇文章还引入了基于两种生成模型的局部底层特征,从而捕捉到两种模态的数据之间更加细粒度的关联。
主要思想
提出的框架如图所示:
整个系统由3条训练路径组成。整个上半部分是第1条路径,由一个图像编码器和两个句子编码器组成,将不同模态的特征映射到一个公共空间中。这个类似于现有的大多数跨模态特征嵌入方法,但区别在于这里使用了两个特征嵌入分支,即将特征分成了高级抽象特征和底层特征。底层特征在后面两条路径中会用到。在第一条路径里,使用两个连续的语句编码器(例如GRU)来获取语义特征;对于图像编码,则使用在ImageNet上经过预训练的CNN来提取特征。特征嵌入和特征映射用这两个式子表示:
括号里表示编码过程&#x