Exploring Visual Relationship for Image Captioning

最新推荐文章于 2022-08-28 10:22:15 发布

luputo

最新推荐文章于 2022-08-28 10:22:15 发布

阅读量2.6k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：论文笔记

本文链接：https://blog.youkuaiyun.com/luo3300612/article/details/90171829

论文笔记专栏收录该内容

41 篇文章

订阅专栏

本文聚焦利用视觉关系辅助图像描述，提出GCN - LSTM模型。结合目标语义和空间关系，用目标检测模块编码图像，生成语义图和空间关系图，经GCN处理后输入LSTM生成描述。在Visual Genome数据集训练，获先进图像描述模型，但存在输出关系弱、门控与注意力区别不明等问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Exploring Visual Relationship for Image Captioning

论文地址

时间：2018年

Intro

尽管当前存在很多CNN+RNN模型，还有一个未被充分研究的问题，即如何利用视觉关系来帮助image captioning。

本文提出了一个GCN-LSTM模型，如图所示

在这里插入图片描述

Contribution

本文的主要贡献是提出了对视觉关系的使用

Model

本文通过结合目标在语义上的和空间上的关系（semantic and spatial object relationships）来进行image caption，首先使用目标检测模块（如Faster R-CNN）来检测目标，从而将整张图编码成一个显著区域的集合，以这个集合为基础分别生成semantic graph 和 spatial relation graph，然后开始训练GCN，利用GCN将之前的feature结合成更好的feature，得到relation-aware的region representation，然后喂给LSTM，使用region-level的attention机制来生成caption，模型的整体如图所示
在这里插入图片描述

Visual Relationship between Objects in Images

Semantic Object Relationship

semantic relation是 $< s u b j e c t - p r e d i c a t e - o b j e c t >$ 这样的三元组，本文使用了一个分类网络来得到两个object之间的关系，这个网络是在visual relationship benchmarks上学习的（比如 Visual Genome），为了得到目标 $v_i$ 和目标 $v_j$ 的关系，需要将它们并集的bounding box作为网络输入的一部分，如图所示
在这里插入图片描述

region-level feature $v_i$ 和 $v_j$ 首先分别通过一个embedding层，然后和 $\mathbf{v_{ij}}$ （包含两者的bounding box的特征）concat到一起，输入到网络中，输出是一个在 $N_{sem}$ 个semantic relationship类和一个无relationship类上的softmax概率，region level feature取 $D_v$ 维（ $D_v$ =2048）的来自R-CNN（with ResNet-101）的Res4b22 feature map的Pool5层输出。

记RCNN的proposal数为 $K$ ，首先将这 $K$ 个目标组成 $K * (K - 1)$ 对，然后计算每一对在relation classifier上的输出，如果无relation这类的输出小于0.5，则将在两个目标之间建立一条有向边，边上的关系即是剩余输出最大的类别所指向的关系

Spatial Object Relationship

semantic relationship没能考虑到空间上的relationship，因此引入spatial relationship作为补充，spatial relationship是一个二元组 $lt;object_i-object_j>$ ，记录两个物体的相对几何位置，边和相应的标签是由IoU、相对距离和角度决定的，共有11类位置关系和一类无关系，如图所示
在这里插入图片描述
有关系则用边连接起来，并在边上表上关系

captioning model

接下来就是使用GCN-LSTM来进行image caption了，GCN-based image encoder将image regions feature, semantic graph 和 spatial graph 分别 encode到一起，综合上下文信息生成relation aware representation，然后喂给LSTM

GCN-based Image Encoder

原始的GCN是在无向图上进行操作的
在这里插入图片描述
其中 $\mathcal{N}(v_i)$ 是所有与 $v_i$ 有边连接的结点，其中也包括 $v_i$ 自身，但这种GCN无法融入有向边和边上label的信息，故修改为

$dir(v_i,v_j)$ 根据边的方向给出不同的 $W$ ， $W_1$ for $v_i-to-v_j$ , $W_2$ for $v_j-to-v_i$ ， $W_3$ for $v_i-to-v_i$ ，并且，加上一个edge-wise gate（区别于attention）来使网络focus一些重要的边
在这里插入图片描述

Attention LSTM Sentence Decoder

在上一步的输出 ${v_i^{(1)}}^{K}_{i=1}$ 的基础上，LSTM的更新如下
在这里插入图片描述
LSTM的输入融合了上一轮的隐层输出（初始化为 $\bar{v}$ ），输入词 $\mathbf{w_t}$ 是embedding 向量，和 $\bar{v}=\frac{1}{K}\sum^{K}_{i=1}v_{i}^{(1)}$ ， $W_s$ 是transformation matrix， $h^1$ 是first layer LSTM unit，然后可以求attention
在这里插入图片描述
然后就可以在 $v_i^{(1)}$ 上加权求出
$\hat{v}_t=\sum_{i=1}^K\lambda_{t,i}\mathbf{v_i}^{(1)}$
然后将结果concat起来喂给second-layer LSTM unit，

然后 $h_t^2$ 就用来预测下一个词 $w_{t+1}$

训练

训练的时候semantic和spatial graph分别用来训练两个网络，实际预测时两个网络的输出加权得到结果
在这里插入图片描述

细节

预处理时将所有文本转化为小写且去掉所有少于五次的词

数据集

Visual Genome：大规模的数据集，用来对目标的相交以及关系进行建模

结论

本文通过将semantic graph和spatial graph融入到图像region feature中，得到了state-of-the-art的image caption模型

问题

1 $\mathbf{v_i^{(1)}}$ 本身与 $\mathbf{v_{i}}$ 的直接关系显得很弱

这个公式中，如果有两个 $v_i$ ，它们本身是不同的，但却与相同的其他object有相同的关系，那么它们的输出就几乎是相同的，因为在求和中仅仅是它们连接到自身的那条边不一样，这某种程度上也是因为第一个式子的右边 $v_i$ 没有直接参与到运算的原因（除了和自己相连的那次）
2 gate和attention的区别

注意到文中对于不同的连接使用了gate，这样做和用attention用啥区别？attention-based简写就是
$v_i^{(1)}=\rho(\sum \lambda_{v_i,v_j}(Wv+b))$

$\lambda_{v_i,v_j}=softmax(Wv+b)$