文本-图像生成(Text-to-Image Generation)的评价指标介绍——CLIPScore、TISE

CLIPScore: A Reference-free Evaluation Metric for Image Captioning

论文标题:CLIPScore: A Reference-free Evaluation Metric for Image Captioning
这一篇是针对Image Caption领域的评价指标,但是有些基于条件的Diffusion模型也使用了这个评价指标来衡量文本和生成图像的匹配程度。

背景

本文提出的CLIPScore(下文简称CLIPS)是不需要推理的评估指标,之前常见的基于推理模型的评价指标有 CIDEr 和 SPICE等(还有一些自检索的方式),类似FID和IS利用到训练好的inceptionv3网络计算图像分布之间相似性的得分。
代码链接:clipscore

简单的原理图
CLIP-Score

公式

对于CLIP-S,作者建议使用“A Photo Depicts”作为prompt会提高效果。
CLIP-S
其中,c和v是CLIP编码器对Caption和图像处理输出的embedding,w作者设置为2.5。这个公式不需要额外的模型推理运算,运算速度很快,作者称在消费级GPU上,1分钟可以处理4k张图像-文本对。
CLIP-S也可以包含参考文本进行评估。使用调和平均数(harmonic mean)计算结果:
调和平均数
最终公式如下:
公式
其中,R是图像对应的参考文本描述。

总结

作者建议对图像描述进行评估,一般需要一个

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值