这是本人第一次把一篇论文完完全全从了解到推导,而不再是走马观花,特此记下这篇理论上并不难,但是故事编的很好很有学习意义的论文。
本文分三个部分,第一个部分为论文报告内容,第二部分为在报告中自己的一些不足和对论文信息的扩展,最后文末为分享,提供论文链接,以及一些自己在看论文时,无意中发现的一些好文章。
一、论文报告
1.Introduction
1.1 Image Caption背景信息:
1、Image Caption问题描述:可以定义为二元组(I,S)的形式, 其中I表示图,S为目标单词序列,其中S={
S 1 S_1 S1, S 2 S_2 S2,…},其中 S t S_t St为来自于数据集提取的单词。训练的目标是使最大似然p(S|I)取得最大值,即让生成的语句和目标语句更加匹配,也可以表达为用尽可能准确的用语句去描述图像。在Image Caption中,大多数方法依靠统计学方法,在图像和字幕表述之间建立概率的配对模型,比如MLE。
2、在机器翻译中,有几种标准的图像标注的评价指标:BLEU、METEOR、ROUGE和CIDEr,合称“BCMR”,而COCO上就用的是这四个指标来衡量算法优劣。
3、用以上指标评价Image Caption,在质量上与手动标注的还有一定差距。
当前image caption 存在的四个主要问题:
1、指标的提升
2、暴露误差的累积。
这个是指预测的时候,前面预测的结果是错的,后面的错得越来越离谱。
3、损失函数和评级指标没有直接挂钩。
4、只适用于配对的图像和文本。
本文主要介绍了,作者团队对于指标优化与减少误差累积的贡献。
1.2 SPICE介绍
1、由P. Anderson, B. Fernando, M. Johnson, and S. Gould,在Spice:Semantic propositional image caption evaluation 提出。
2、SPICE是对参考句子进行解析,然后在此基础上,生成一些抽象的场景图表示(scene graph representation),再将生成句与抽象出的图进行比较,而不是直接把生成句和参考句在语法上进行比较。这样用SPICE指标来标注,在语意相关性上表现优于BCMR指标评价下的标注,更容易被人类接受。