[论文]记 Improved Image Captioning via Policy Gradient optimization of SPIDEr 论文报告

本文详细介绍了论文《Improved Image Captioning via Policy Gradient optimization of SPIDEr》的内容,探讨了Image Caption的问题背景,如指标优化、误差累积,并重点解析了SPICE指标的优缺点。通过Policy Gradient优化,解决了SPICE的不可微分问题,提出SPIDEr组合指标以平衡语义和语法。实验表明,使用PG优化方法在机器和人工评价中均优于传统方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这是本人第一次把一篇论文完完全全从了解到推导,而不再是走马观花,特此记下这篇理论上并不难,但是故事编的很好很有学习意义的论文。
本文分三个部分,第一个部分为论文报告内容,第二部分为在报告中自己的一些不足和对论文信息的扩展,最后文末为分享,提供论文链接,以及一些自己在看论文时,无意中发现的一些好文章

一、论文报告

1.Introduction

1.1 Image Caption背景信息:

1、Image Caption问题描述:可以定义为二元组(I,S)的形式, 其中I表示图,S为目标单词序列,其中S={ S 1 S_1 S1, S 2 S_2 S2,…},其中 S t S_t St为来自于数据集提取的单词。训练的目标是使最大似然p(S|I)取得最大值,即让生成的语句和目标语句更加匹配,也可以表达为用尽可能准确的用语句去描述图像。在Image Caption中,大多数方法依靠统计学方法,在图像和字幕表述之间建立概率的配对模型,比如MLE。
2、在机器翻译中,有几种标准的图像标注的评价指标:BLEU、METEOR、ROUGE和CIDEr,合称“BCMR”,而COCO上就用的是这四个指标来衡量算法优劣。
3、用以上指标评价Image Caption,在质量上与手动标注的还有一定差距。

当前image caption 存在的四个主要问题:
1、指标的提升
2、暴露误差的累积。

这个是指预测的时候,前面预测的结果是错的,后面的错得越来越离谱。
3、损失函数和评级指标没有直接挂钩。
4、只适用于配对的图像和文本。

本文主要介绍了,作者团队对于指标优化与减少误差累积的贡献。

1.2 SPICE介绍

1、由P. Anderson, B. Fernando, M. Johnson, and S. Gould,在Spice:Semantic propositional image caption evaluation 提出。
2、SPICE是对参考句子进行解析,然后在此基础上,生成一些抽象的场景图表示(scene graph representation),再将生成句与抽象出的图进行比较,而不是直接把生成句和参考句在语法上进行比较。这样用SPICE指标来标注,在语意相关性上表现优于BCMR指标评价下的标注,更容易被人类接受。

1.3
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值