一、文献信息
发表信息:The Thirty-Fourth AAAI Conference on Artificial Intelligence (AAAI-20),来自罗彻斯特大学。
作者信息:Tianlang Chen, Jiebo Luo
Department of Computer Science
University of Rochester
{tchen45, jluo}@cs.rochester.edu
二、论文详解
(一)背景
现有的ITM方法通常通过捕获和聚焦文本与图像的每个独立对象之间的相关性来推断Image-Text Similarity。But! 他们忽略了语义相关的对象之间的连接,而这些对象可以共同确定某一个图像是否对应于文本。
eg:绿色框中的每个对象都与文本中的“people”高度匹配,然而这却是一个预测错误的图文匹配(显然整张图片与文本中“Two people riding...”不符合)。因此,只有联合建模对象,模型才能预测图像与文本的不对应,才能使模型做出更准确的预测。
(二)主要内容
本文提出了一种