(九十二):Re-evaluating Automatic Metrics for Image Captioning

本文针对图像标题生成任务的自动评估指标进行了深入分析,包括BLEU、ROUGE、METEOR、CIDEr和SPICE等。文章探讨了这些指标的局限性,如BLEU对词序的依赖,以及SPICE对解析质量的敏感性。作者引入了Word Mover's Distance (WMD)作为补充,因其考虑了语义相似性。实验结果显示,WMD在多项评估中表现出较高的相关性和鲁棒性。文章强调了现有指标的不足,并提倡开发更有效的评估方法,如结合多模态嵌入的指标。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 出处:EACL (1) 2017: 199-209
  • 代码:
  • 题目:重新评估图像标题的自动度量
  • 主要内容:

Abstract

从图像中生成自然语言描述的任务近年来受到了广泛的关注。因此,以一种自动的方式评估这种图像字幕方法变得越来越重要。在本文中,我们通过一系列精心设计的实验,对现有的图像字幕处理方法进行了深入的评价
此外,我们还探讨了利用最近提出的Word Mover’s Distance (WMD)文档来实现图像字幕的目的。我们的发现概述了差异和/或相似的指标及其相对鲁棒性,通过广泛的相关性,准确性和分心为基础的评估。
我们的结果还表明,WMD提供了比其他指标强大的优势

1. Introduction

在自然语言处理和计算机视觉领域,视觉与语言的融合研究正受到越来越多的关注。作为这一新兴领域的关键问题之一,图像字幕旨在生成给定图像的自然描述(Bernardi et al., 2016)。这是一个具有挑战性的问题,因为它不仅需要理解视觉内容的能力,而且还需要对内容进行语言描述。在这方面,它可以被框定为一个机器翻译任务,源语言表示视觉领域,目标语言是一种特定的语言,如英语。最近提出的深度图像字幕研究遵循了这种解释,并通过编码器-解码器架构对过程建模(Vinyals等人,2015;Xu等,2015;K

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Laura_Wangzx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值