文章地址:link
文章介绍了一种新的训练图像-文本对齐模型的方法,即ADAPT。Image-text对齐方法通常用于跨模式检索,即用于检索给定查询文本的图像或成功标记图像的标题。ADAPT是基于模式b的全局信息,提高模式a中的实例嵌入式表示的效果的一种方法。文章提供的代码地址:
https://github.com/jwehrmann /retrieval.pytorch。
简介
在深度学习工作中,对于多通道模型的研究是一个十分重要的工作,尽管多通道模型大致是一个广义的概念,它包括任何模型训练超过一个单一的形态(如图片、视频、文本、音频),在这项工作中,本文针对的就是Images-Text对齐问题,也被称为多通道检索、跨通道检索和双向对齐问题。文中主要针对:
- 使用一段文本来对图像进行检索
- 根据图像,找到一段对其最合适的描述
以往的方法
在模型交叉级别上,学习image-text对齐模型主要有三种方法:
- 训练所谓的视觉语义嵌入空间
- 基于注意力的策略,即某一模型的高级特征会影响其他模型的编码,例如,使用图像特征来计算文本表示
- 处理完全模型交叉表示的方法,将不同的的两模型结合在同一个神经网络中,网络本身学习一个相似函数。
随着不同通道间特征交叉的增加,神经网络的计算量会不断的增大,而完全独立的向量计算方法虽然快但是模型很难在图像和文本之间学习相似性和差异性。