目录
CLIPScore: A Reference-free Evaluation Metric for Image Captioning
论文标题:CLIPScore: A Reference-free Evaluation Metric for Image Captioning
这一篇是针对Image Caption领域的评价指标,但是有些基于条件的Diffusion模型也使用了这个评价指标来衡量文本和生成图像的匹配程度。
背景
本文提出的CLIPScore(下文简称CLIPS)是不需要推理的评估指标,之前常见的基于推理模型的评价指标有 CIDEr 和 SPICE等(还有一些自检索的方式),类似FID和IS利用到训练好的inceptionv3网络计算图像分布之间相似性的得分。
代码链接:clipscore
简单的原理图

公式
对于CLIP-S,作者建议使用“A Photo Depicts”作为prompt会提高效果。

其中,c和v是CLIP编码器对Caption和图像处理输出的embedding,w作者设置为2.5。这个公式不需要额外的模型推理运算,运算速度很快,作者称在消费级GPU上,1分钟可以处理4k张图像-文本对。
CLIP-S也可以包含参考文本进行评估。使用调和平均数(harmonic mean)计算结果:

最终公式如下:

其中,R是图像对应的参考文本描述。
总结
作者建议对图像描述进行评估,一般需要一个

最低0.47元/天 解锁文章
326





