image-text matching(六)Visual Semantic Reasoning for Image-Text Matching

最新推荐文章于 2024-11-04 22:06:21 发布

原创

最新推荐文章于 2024-11-04 22:06:21 发布 · 1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #计算机视觉

该论文提出了一种名为VSRN的模型，用于解决图文匹配任务中的挑战。通过区域关系推理和全局语义推理，VSRN能够生成增强的视觉特征表示，从而更好地匹配文本。实验结果显示，该模型在MS-COCO和Flickr30K数据集上的性能超越了现有最佳方法。

背景

这篇论文是美国东北大学的工作，接收于ICCV2019

动机

图文匹配任务的challenge在于，当前的图像表示通常缺乏全局语义概念(?)。作者提出模型VSRN，包含一个推理模块来生成视觉特征表示。具体地，第一步先构建图像regions之间的关系矩阵，在其上使用GCN来捕捉带有语义联系的visual features；接下来，利用得到的relationship enhanced features，输入到GRU中执行全局推理。