Expressing Objects Just Like Words:Recurrent Visual Embedding for Image-Text Matching(论文详细梳理)

一、文献信息

发表信息:The Thirty-Fourth AAAI Conference on Artificial Intelligence (AAAI-20),来自罗彻斯特大学。

作者信息:Tianlang Chen, Jiebo Luo
Department of Computer Science
University of Rochester
{tchen45, jluo}@cs.rochester.edu

二、论文详解

(一)背景

现有的ITM方法通常通过捕获和聚焦文本与图像的每个独立对象之间的相关性来推断Image-Text Similarity。But! 他们忽略了语义相关的对象之间的连接,而这些对象可以共同确定某一个图像是否对应于文本。

eg:绿色框中的每个对象都与文本中的“people”高度匹配,然而这却是一个预测错误的图文匹配(显然整张图片与文本中“Two people riding...”不符合)。因此,只有联合建模对象,模型才能预测图像与文本的不对应,才能使模型做出更准确的预测。

(二)主要内容

本文提出了一种

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值