CLAIR: Evaluating Image Captions with Large Language Models

828 篇文章

已下架不支持订阅

本文提出了一种名为CLAIR的新方法,利用大型语言模型(LLM)评估图像字幕的质量。CLAIR在与人类判断的相关性上优于现有评估措施,并在Flickr8KExpert上取得显著提升。CLAIR还提供了可解释的评估结果。

本文是LLM系列文章,针对《CLAIR: Evaluating Image Captions with Large Language Models》的翻译。

摘要

机器生成的图像字幕的评估提出了一个有趣但持久的挑战。有效的评估措施必须考虑相似性的多个维度,包括语义相关性、视觉结构、对象交互、字幕多样性和特异性。现有的高度工程化的措施试图捕捉特定方面,但未能提供与人类判断密切一致的整体评分。在这里,我们提出CLAIR,一种新颖的方法,利用大型语言模型(LLM)的零样本语言建模功能来评估候选字幕。在我们的评估中,与现有的测量相比,CLAIR与人类对字幕质量的判断具有更强的相关性。值得注意的是,在Flickr8KExpert上,CLAIR实现了比SPICE 39.6%和比RefCLIP-S等图像增强方法18.3%的相对相关性改进。此外,CLAIR通过允许语言模型识别其指定分数背后的潜在推理,提供了可解释的噪声结果。代码在https://davidmchan.github.io/clair/上可用。

1 引言和背景

2 CLAIR:LLM用于字幕评估

3 评估与讨论

4 局限性

5 结论

这项工作介绍了CLAIR,一种基于LLM的图像字幕评估方法。与高引擎化度量相比,CLAIR的卓越性能表明了一个显著的事实:LLM与人类对字幕质量的判断非常一致,甚至比一些专门为语义相似性设计的度量更一致。CLAIR只是LLM如何用于评估任务的一瞥,

已下架不支持订阅

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值