《CIDEr: Consensus-based Image Description Evaluation》简要

文章汉化系列目录



《CIDEr:基于共识的图像描述评估》

摘要

 自动化地用一句话描述图像是计算机视觉和自然语言处理领域的一个长期挑战。由于最近在物体检测、属性分类、动作识别等方面的进展,该领域重新引起了人们的关注。然而,评估描述质量一直是一个难题。我们提出了一种新的图像描述评估范式,基于人类共识。该范式包括三个主要部分:一种新的基于三元组的方法来收集人类标注以衡量共识,一种新的自动化评估指标(CIDEr)来捕捉共识,以及两个新的数据集:PASCAL-50S 和 ABSTRACT-50S,每个数据集包含50个句子来描述每张图像。我们简单的评估指标比现有的评估方法更好地捕捉了人类对共识的判断,适用于由各种来源生成的句子。我们还使用这一新协议评估了五种最先进的图像描述方法,并提供了一个基准用于未来的比较。CIDEr的一个版本,称为CIDErD,作为MS COCO评估服务器的一部分,提供了系统化的评估和基准测试功能。

引言

 最近,物体识别[15]、属性分类[23]、动作分类[26, 9]和众包[40]等领域的进展,增加了人们对解决更高层次场景理解问题的兴趣。其中一个问题是生成类人化的图像描述。尽管这一领域的兴趣日益增长,但自动方法生成的新句子的评估仍然具有挑战性。评估对于衡量进展和促进技术的改进至关重要,这在计算机视觉的各种问题中已经得到了证明,如目标检测[13, 7]、图像分割[13, 28]和立体视觉[39]。现有的图像描述评估指标试图衡量几个理想的属性,包括语法正确性、重要性(覆盖主要方面)、准确性/真实性等。通过人类研究,这些属性可以被衡量,例如通过1到5的等级[29, 37, 43, 11]或配对量表[44]。不幸的是,将这些不同的结果合并为一个句子质量的评估指标是困难的。另一种方法是让研究对象判断句子的整体质量[22, 18]。一个重要但不显而易见的属性在于:当图像描述由人类评判时,“人类喜欢的"往往不等于"类人化的”。为了解决这一问题,我们提出了一种新的基于共识的评估协议,它通过衡量句子与大多数人描述图像的共识相似度来进行评估(见图1)。这一评估协议的实现方式是通过让人类评判候选句子与人类提供的参考句子

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值