(九十二):Re-evaluating Automatic Metrics for Image Captioning
- 出处:EACL (1) 2017: 199-209
- 代码:
- 题目:重新评估图像标题的自动度量
- 主要内容:
Abstract
从图像中生成自然语言描述的任务近年来受到了广泛的关注。因此,以一种自动的方式评估这种图像字幕方法变得越来越重要。在本文中,我们通过一系列精心设计的实验,对现有的图像字幕处理方法进行了深入的评价。
此外,我们还探讨了利用最近提出的Word Mover’s Distance (WMD)文档来实现图像字幕的目的。我们的发现概述了差异和/或相似的指标及其相对鲁棒性,通过广泛的相关性,准确性和分心为基础的评估。
我们的结果还表明,WMD提供了比其他指标强大的优势。
1. Introduction
在自然语言处理和计算机视觉领域,视觉与语言的融合研究正受到越来越多的关注。作为这一新兴领域的关键问题之一,图像字幕旨在生成给定图像的自然描述(Bernardi et al., 2016)。这是一个具有挑战性的问题,因为它不仅需要理解视觉内容的能力,而且还需要对内容进行语言描述。在这方面,它可以被框定为一个机器翻译任务,源语言表示视觉领域,目标语言是一种特定的语言,如英语。最近提出的深度图像字幕研究遵循了这种解释,并通过编码器-解码器架构对过程建模(Vinyals等人,2015;Xu等,2015;K