《Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects》阅读笔记

这篇论文收录在2017年CVPR上,跟2015年发表在CVPR上的论文《From Captions to Visual Concepts and Back》都是微软研究院创作的。跟《From Captions to Visual Concepts and Back》方法有点类似,不过将其方法改进,将image caption扩展到了novel objects上。

一、introduction

这一部分点出了论文提出来的一种新框架LSTM-C,全称是 Long Short-Term Memory with Copying Mechanism 。该机制主要工作原理,给定一张图片,利用CNN提取特征并作为语言模型LSTM的初始时刻的输入,另一方面,目标检测网络识别出图片中的物体,接下来复制机制考虑怎么将识别出来的物体放到输出中。

二、Related Work

提到image caption、novel object caption

三、Image caption with copying mechanism

 上图(b)展示了LSTM-C结构,(a)中\omega _g代表paired image-sentences中出现的词汇,\omega _c代表unpaired objects组成的词汇

3.1 Notaion

image特征I\in R^{D_v},textual sentenceS=\{w_1,w_2,\ldots,w_N_s\},其中每一个w_t\in R^{D_w},输出还可以表示成D_w \times N_s的矩阵,理解成N_sD_w的列向量构成。

3.2 Sequence Modeling in Image Caption

这一部分跟show ant tell模型提出的language model一样,是一个典型的不带attention机制的Sequence-to-sequence模型,论文用Pr^g_t(w_{t+1})表示下一时刻单词的出现概率,计算公式为

Pr^g_t(w_{t+1})={\bf w^{T}_{t+1}}{\bf M}_g{\bf h}^t

3.3 Copying Mechanism

Copying Mechanism主要用来解决out-of-vocabulary的问题。copying mechanism作用是将检测到的objects对应的word复制到输出sentence中,类似于人类的rote memorization,简单点说就是记住输入的sentence部分单词,然后直接放入输出sentence中。

计算公式为

Pr^c_t(w_{t+1})=\varphi ({\bf w^{T}_{t+1}}{\bf M}_c){\bf h}^t\delta (w_{t+1})

其中,\delta (w_{t+1})是单词w_{t+1}对应的物体在image中检测到概率的score,换句话说,检测到object概率越大,那么对应的score越大,对应单词出现概率就越大,跟Pr^g_t(w_{t+1})一样,Pr^c_t(w_{t+1})也是计算单词跟LSTM隐状态h^t的相似程度。不过具体的变换矩阵不一样。

3.4 LSTM with Copying Mechanism

根据3.2、3.3提到的方法,输出单词的计算公式有两个,根据其vocabulary集合属性,归纳出所有单词的计算公式,

其中,这里给出的是最后的softmax归一化的形式。重点关注既在w_g又在w_c中的单词,它们的计算公式结合了3.2、3.3的公式,其中,\lambda是平衡参数。

根据Pr_t(w_{t+1})计算公式,得到对数似然损失函数,计算公式为

论文最终得到一个优化问题

这里有一个疑问,按照论文的说法,训练LSTM-C的时候采用的是paired image-sentence数据,那么所有的单词就不存在只属于w_c的情况,也就是说3.3提到的公式在训练整个LSTM-C的时候完全没有用,只在测试的时候起作用?

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值