《Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects》阅读笔记

最新推荐文章于 2024-10-11 08:10:36 发布

SCUT_AUTO143

最新推荐文章于 2024-10-11 08:10:36 发布

阅读量777

点赞数

分类专栏： image caption论文阅读文章标签： image caption Incorporating Copying Mechanis

本文链接：https://blog.youkuaiyun.com/SCUT_AUTO143/article/details/88357008

版权

image caption论文阅读专栏收录该内容

3 篇文章

订阅专栏

这篇论文收录在2017年CVPR上，跟2015年发表在CVPR上的论文《From Captions to Visual Concepts and Back》都是微软研究院创作的。跟《From Captions to Visual Concepts and Back》方法有点类似，不过将其方法改进，将image caption扩展到了novel objects上。

一、introduction

这一部分点出了论文提出来的一种新框架LSTM-C，全称是 Long Short-Term Memory with Copying Mechanism 。该机制主要工作原理，给定一张图片，利用CNN提取特征并作为语言模型LSTM的初始时刻的输入，另一方面，目标检测网络识别出图片中的物体，接下来复制机制考虑怎么将识别出来的物体放到输出中。

二、Related Work

提到image caption、novel object caption

三、Image caption with copying mechanism

上图(b)展示了LSTM-C结构，(a)中 $\omega _g$ 代表paired image-sentences中出现的词汇， $\omega _c$ 代表unpaired objects组成的词汇

3.1 Notaion

image特征 $I\in R^{D_v}$ ，textual sentence $S=\{w_1,w_2,\ldots,w_N_s\}$ ，其中每一个 $w_t\in R^{D_w}$ ,输出还可以表示成 $D_w \times N_s$ 的矩阵，理解成 $N_s$ 个 $D_w$ 的列向量构成。

3.2 Sequence Modeling in Image Caption

这一部分跟show ant tell模型提出的language model一样，是一个典型的不带attention机制的Sequence-to-sequence模型，论文用 $Pr^g_t(w_{t+1})$ 表示下一时刻单词的出现概率，计算公式为

$Pr^g_t(w_{t+1})={\bf w^{T}_{t+1}}{\bf M}_g{\bf h}^t$

3.3 Copying Mechanism

Copying Mechanism主要用来解决out-of-vocabulary的问题。copying mechanism作用是将检测到的objects对应的word复制到输出sentence中，类似于人类的rote memorization，简单点说就是记住输入的sentence部分单词，然后直接放入输出sentence中。

计算公式为

$Pr^c_t(w_{t+1})=\varphi ({\bf w^{T}_{t+1}}{\bf M}_c){\bf h}^t\delta (w_{t+1})$

其中， $\delta (w_{t+1})$ 是单词 $w_{t+1}$ 对应的物体在image中检测到概率的score，换句话说，检测到object概率越大，那么对应的score越大，对应单词出现概率就越大，跟 $Pr^g_t(w_{t+1})$ 一样， $Pr^c_t(w_{t+1})$ 也是计算单词跟LSTM隐状态 $h^t$ 的相似程度。不过具体的变换矩阵不一样。