《CIDEr: Consensus-based Image Description Evaluation》简要

文章汉化系列目录



摘要

自动生成描述图像的句子一直是计算机视觉和自然语言处理领域的长期挑战。随着物体检测、属性分类、动作识别等方面的进展,学术界对该领域的兴趣重新高涨。然而,评估生成描述的质量仍然是一个难题。我们提出了一种新的基于人类共识的图像描述评估范式。该范式包括三个主要部分:一种基于三元组的新方法,用于收集人类标注来衡量共识;一种新的自动化评价指标CIDEr,用于捕捉共识;以及两个新数据集PASCAL-50S和ABSTRACT-50S,每个图像包含50条描述句子。我们的简单指标在捕捉人类共识判断方面,比现有的评价指标在各种来源生成的句子上表现更好。我们还使用该新评估协议对五种最先进的图像描述方法进行了评估,并提供了一个基准,以便未来对比。此外,CIDEr的一个版本CIDErD已在MS COCO评估服务器上发布,以支持系统性的评估和基准测试。

引言

 近年来,物体识别 [15]、属性分类 [23]、动作分类 [26, 9] 和众包 [40] 等领域的进展提升了对解决更高层次场景理解问题的兴趣。一个这样的问题是生成人类风格的图像描述。尽管这一领域的兴趣日益增长,但自动方法生成的新句子的评价仍然具有挑战性。评估对于衡量进展并推动该领域的改进至关重要。类似的情况已在计算机视觉的各类问题中得到验证,如检测 [13, 7]、分割 [13, 28] 和立体视觉 [39]。
 现有的图像描述评估指标试图衡量几个理想的特性,包括语法性、显著性(覆盖主要方面)、正确性/真实性等。这些特性可以通过人工研究来衡量,例如,使用一到五的单独评分 [29, 37, 43, 11] 或成对比较的方式 [44]。然而,将这些不同的结果合并为一个句子质量的总体衡量标准是困难的。另一种方法是让受试者直接判断句子的整体质量 [22, 18]。
 在人工评判图像描述时,存在一个重要但不明显的特性:人类喜欢的描述往往不等同于类人化的描述。我们引入了一种新颖的基于共识的评估协议,它衡量句子与大多数人描述该图像的方式(共识)的相似性(见图1)。该评估协议的一种实现方式是让人类受试者评估候选句子与人工提供的真实句子之间的相似性。受试者需要回答“哪一个句子与

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值