背景
这篇论文是美国东北大学的工作,接收于ICCV2019
动机
图文匹配任务的challenge在于,当前的图像表示通常缺乏全局语义概念(?)。作者提出模型VSRN,包含一个推理模块来生成视觉特征表示。具体地,第一步先构建图像regions之间的关系矩阵,在其上使用GCN来捕捉带有语义联系的visual features;接下来,利用得到的relationship enhanced features,输入到GRU中执行全局推理。
模型结构

方法
Region Relationship Reasoning
区域 v i v_i