本文是LLM系列文章,针对《CLAIR: Evaluating Image Captions with Large Language Models》的翻译。
摘要
机器生成的图像字幕的评估提出了一个有趣但持久的挑战。有效的评估措施必须考虑相似性的多个维度,包括语义相关性、视觉结构、对象交互、字幕多样性和特异性。现有的高度工程化的措施试图捕捉特定方面,但未能提供与人类判断密切一致的整体评分。在这里,我们提出CLAIR,一种新颖的方法,利用大型语言模型(LLM)的零样本语言建模功能来评估候选字幕。在我们的评估中,与现有的测量相比,CLAIR与人类对字幕质量的判断具有更强的相关性。值得注意的是,在Flickr8KExpert上,CLAIR实现了比SPICE 39.6%和比RefCLIP-S等图像增强方法18.3%的相对相关性改进。此外,CLAIR通过允许语言模型识别其指定分数背后的潜在推理,提供了可解释的噪声结果。代码在https://davidmchan.github.io/clair/上可用。
1 引言和背景
2 CLAIR:LLM用于字幕评估
3 评估与讨论
4 局限性
5 结论
这项工作介绍了CLAIR,一种基于LLM的图像字幕评估方法。与高引擎化度量相比,CLAIR的卓越性能表明了一个显著的事实:LLM与人类对字幕质量的判断非常一致,甚至比一些专门为语义相似性设计的度量更一致。CLAIR只是LLM如何用于评估任务的一瞥,
本文提出了一种名为CLAIR的新方法,利用大型语言模型(LLM)评估图像字幕的质量。CLAIR在与人类判断的相关性上优于现有评估措施,并在Flickr8KExpert上取得显著提升。CLAIR还提供了可解释的评估结果。
已下架不支持订阅
1176

被折叠的 条评论
为什么被折叠?



