文章汉化系列目录
《CIDEr:基于共识的图像描述评估》
摘要
自动化地用一句话描述图像是计算机视觉和自然语言处理领域的一个长期挑战。由于最近在物体检测、属性分类、动作识别等方面的进展,该领域重新引起了人们的关注。然而,评估描述质量一直是一个难题。我们提出了一种新的图像描述评估范式,基于人类共识。该范式包括三个主要部分:一种新的基于三元组的方法来收集人类标注以衡量共识,一种新的自动化评估指标(CIDEr)来捕捉共识,以及两个新的数据集:PASCAL-50S 和 ABSTRACT-50S,每个数据集包含50个句子来描述每张图像。我们简单的评估指标比现有的评估方法更好地捕捉了人类对共识的判断,适用于由各种来源生成的句子。我们还使用这一新协议评估了五种最先进的图像描述方法,并提供了一个基准用于未来的比较。CIDEr的一个版本,称为CIDErD,作为MS COCO评估服务器的一部分,提供了系统化的评估和基准测试功能。
引言
最近,物体识别[15]、属性分类[23]、动作分类[26, 9]和众包[40]等领域的进展,增加了人们对解决更高层次场景理解问题的兴趣。其中一个问题是生成类人化的图像描述。尽管这一领域的兴趣日益增长,但自动方法生成的新句子的评估仍然具有挑战性。评估对于衡量进展和促进技术的改进至关重要,这在计算机视觉的各种问题中已经得到了证明,如目标检测[13, 7]、图像分割[13, 28]和立体视觉[39]。现有的图像描述评估指标试图衡量几个理想的属性,包括语法正确性、重要性(覆盖主要方面)、准确性/真实性等。通过人类研究,这些属性可以被衡量,例如通过1到5的等级[29, 37, 43, 11]或配对量表[44]。不幸的是,将这些不同的结果合并为一个句子质量的评估指标是困难的。另一种方法是让研究对象判断句子的整体质量[22, 18]。一个重要但不显而易见的属性在于:当图像描述由人类评判时,“人类喜欢的"往往不等于"类人化的”。为了解决这一问题,我们提出了一种新的基于共识的评估协议,它通过衡量句子与大多数人描述图像的共识相似度来进行评估(见图1)。这一评估协议的实现方式是通过让人类评判候选句子与人类提供的参考句子之间的相似性。我们会向研究对象提出问题:“哪一句话与另一句话更相似?”最终的质量分数基于候选句子与人类生成的句子相似度的评判频率。这种相对性的问题有助于使任务更具客观性。我们鼓励读者查看[41]中如何使用类似的协议来捕捉人类对图像相似性的感知。这些相似性标注协议可以理解为2AFC(两项选择强迫选择)[3]的实例,2AFC是一种常见的心理物理学方法。由于人类研究既昂贵、难以复制,又评估速度慢,因此自动评估指标通常是所需的。为了在实践中有效,自动评估指标应当能够与人类判断高度一致。当前图像描述评估中使用的一些流行指标包括BLEU[33](基于精确度的指标,来源于机器翻译领域)和ROUGE[45](基于召回率的指标,来源于文本摘要领域)。不幸的是,这些指标已经被证明与人类评判的相关性较弱[22, 11, 4, 18]。在判断描述整体质量的任务中,METEOR[11]指标与人类判断的相关性较好。其他一些指标依赖于对描述的排名[18],并且不能评估新生成的图像描述。
图1:来自我们PASCAL-50S(左)和ABSTRACT-50S(右)数据集的图像,以及一部分对应的(人类生成的)句子。加粗的句子代表了这些图像的共识描述。我们提议通过我们的评估协议来捕捉这些描述。
我们提出了一种新的自动化共识图像描述质量评估指标——CIDEr(基于共识的图像描述评估)。我们的指标通过衡量生成的句子与一组由人类编写的参考句子之间的相似性来进行评估。我们的指标与人类评估的共识有高度一致性。通过句子相似性,我们的指标自然地捕捉到了语法性、重要性、突出性、准确性(精确度和召回率)等概念。
现有的用于评估图像描述方法的数据集通常每张图像最多只有五个描述[35, 18, 32]。然而,我们发现五个描述不足以衡量“大多数”人类如何描述一张图像。因此,为了准确衡量共识,我们收集了两个新的评估数据集,每张图像包含50个描述——PASCAL-50S和ABSTRACT-50S。PASCAL-50S数据集基于流行的UIUC Pascal句子数据集,该数据集每张图像有5个描述。该数据集已被用于许多研究的训练和测试[29, 22, 14, 37]。ABSTRACT-50S数据集则基于Zitnick和Parikh的[46]数据集。虽然以往的方法只使用了5个句子进行评估,但我们探索了使用1到约50个参考句子的方法。有趣的是,我们发现大多数评估指标随着句子的增多而表现出更好的性能。受这一发现的启发,MS COCO测试数据集现在包含5000张图像,每张图像有40个参考句子,以提高自动化评估的准确性[5]。
贡献:在这项工作中,我们提出了一种基于共识的图像描述评估协议。我们引入了一种新的人工判断标注方式,一个新的自动化评估指标和两个新的数据集。我们比较了五种最先进的机器生成方法[29, 22, 14, 37]的表现。我们的代码和数据集可在作者的网页上获取。最后,为了促进这一评估协议的应用,我们将CIDEr作为评估指标,发布在新上线的MS COCO图像描述评估服务器上[5]。
9 结论
在本研究中,我们提出了一种基于共识的图像描述评估协议。我们的协议使得机器生成方法能够在“类人化”程度上进行客观比较,而无需在内容、语法、突出性等方面做出任意权衡。我们引入了一种用于衡量共识的标注方式,一种用于自动计算共识的评估指标CIDEr,以及两个数据集——PASCAL-50S和ABSTRACT-50S,每张图像包含50个句子。我们证明了CIDEr在衡量共识方面相较于现有指标具有更高的准确性。