Exploring Visual Relationship for Image Captioning

本文聚焦利用视觉关系辅助图像描述,提出GCN - LSTM模型。结合目标语义和空间关系,用目标检测模块编码图像,生成语义图和空间关系图,经GCN处理后输入LSTM生成描述。在Visual Genome数据集训练,获先进图像描述模型,但存在输出关系弱、门控与注意力区别不明等问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Exploring Visual Relationship for Image Captioning

论文地址

时间:2018年

Intro

尽管当前存在很多CNN+RNN模型,还有一个未被充分研究的问题,即如何利用视觉关系来帮助image captioning。

本文提出了一个GCN-LSTM模型,如图所示

在这里插入图片描述

Contribution

本文的主要贡献是提出了对视觉关系的使用

Model

本文通过结合目标在语义上的和空间上的关系(semantic and spatial object relationships)来进行image caption,首先使用目标检测模块(如Faster R-CNN)来检测目标,从而将整张图编码成一个显著区域的集合,以这个集合为基础分别生成semantic graph 和 spatial relation graph,然后开始训练GCN,利用GCN将之前的feature结合成更好的feature,得到relation-aware的region representation,然后喂给LSTM,使用region-level的attention机制来生成caption,模型的整体如图所示
在这里插入图片描述

Visual Relationship between Objects in Images

Semantic Object Relationship

semantic relation是 &lt; s u b j e c t − p r e d i c a t e − o b j e c t &gt; &lt;subject-predicate-object&gt; <subjectpredicateobject>这样的三元组,本文使用了一个分类网络来得到两个object之间的关系,这个网络是在visual relationship benchmarks上学习的(比如 Visual Genome),为了得到目标 v i v_i vi和目标 v j v_j vj的关系,需要将它们并集的bounding box作为网络输入的一部分,如图所示
在这里插入图片描述

region-level feature v i v_i vi v j v_j vj首先分别通过一个embedding层,然后和 v i j \mathbf{v_{ij}} vij(包含两者的bounding box的特征)concat到一起,输入到网络中,输出是一个在 N s e m N_{sem} Nsem个semantic relationship类和一个无relationship类上的softmax概率,region level feature取 D v D_v Dv维( D v D_v Dv=2048)的来自R-CNN(with ResNet-101)的Res4b22 feature map的Pool5层输出。

记RCNN的proposal数为 K K K,首先将这 K K K个目标组成 K ∗ ( K − 1 ) K*(K-1) K(K1)对,然后计算每一对在relation classifier上的输出,如果无relation这类的输出小于0.5,则将在两个目标之间建立一条有向边,边上的关系即是剩余输出最大的类别所指向的关系

Spatial Object Relationship

semantic relationship没能考虑到空间上的relationship,因此引入spatial relationship作为补充,spatial relationship是一个二元组 &lt; o b j e c t i − o b j e c t j &gt; &lt;object_i-object_j&gt; <objectiobjectj>,记录两个物体的相对几何位置,边和相应的标签是由IoU、相对距离和角度决定的,共有11类位置关系和一类无关系,如图所示
在这里插入图片描述
有关系则用边连接起来,并在边上表上关系

captioning model

接下来就是使用GCN-LSTM来进行image caption了,GCN-based image encoder将image regions feature, semantic graph 和 spatial graph 分别 encode到一起,综合上下文信息生成relation aware representation,然后喂给LSTM

GCN-based Image Encoder

原始的GCN是在无向图上进行操作的
在这里插入图片描述
其中 N ( v i ) \mathcal{N}(v_i) N(vi)是所有与 v i v_i vi有边连接的结点,其中也包括 v i v_i vi自身,但这种GCN无法融入有向边和边上label的信息,故修改为
在这里插入图片描述
d i r ( v i , v j ) dir(v_i,v_j) dir(vi,vj)根据边的方向给出不同的 W W W W 1 W_1 W1 for v i − t o − v j v_i-to-v_j vitovj, W 2 W_2 W2 for v j − t o − v i v_j-to-v_i vjtovi W 3 W_3 W3 for v i − t o − v i v_i-to-v_i vitovi,并且,加上一个edge-wise gate(区别于attention)来使网络focus一些重要的边
在这里插入图片描述

Attention LSTM Sentence Decoder

在上一步的输出 v i ( 1 ) i = 1 K {v_i^{(1)}}^{K}_{i=1} vi(1)i=1K的基础上,LSTM的更新如下
在这里插入图片描述
LSTM的输入融合了上一轮的隐层输出(初始化为 v ˉ \bar{v} vˉ),输入词 w t \mathbf{w_t} wt是embedding 向量,和 v ˉ = 1 K ∑ i = 1 K v i ( 1 ) \bar{v}=\frac{1}{K}\sum^{K}_{i=1}v_{i}^{(1)} vˉ=K1i=1Kvi(1) W s W_s Ws是transformation matrix, h 1 h^1 h1是first layer LSTM unit,然后可以求attention
在这里插入图片描述
然后就可以在 v i ( 1 ) v_i^{(1)} vi(1)上加权求出
v ^ t = ∑ i = 1 K λ t , i v i ( 1 ) \hat{v}_t=\sum_{i=1}^K\lambda_{t,i}\mathbf{v_i}^{(1)} v^t=i=1Kλt,ivi(1)
然后将结果concat起来喂给second-layer LSTM unit,
在这里插入图片描述
然后 h t 2 h_t^2 ht2就用来预测下一个词 w t + 1 w_{t+1} wt+1

训练

训练的时候semantic和spatial graph分别用来训练两个网络,实际预测时两个网络的输出加权得到结果
在这里插入图片描述

细节

预处理时将所有文本转化为小写且去掉所有少于五次的词

数据集

Visual Genome:大规模的数据集,用来对目标的相交以及关系进行建模

结论

本文通过将semantic graph和spatial graph融入到图像region feature中,得到了state-of-the-art的image caption模型

问题

  • 1 v i ( 1 ) \mathbf{v_i^{(1)}} vi(1)本身与 v i \mathbf{v_{i}} vi的直接关系显得很弱
    在这里插入图片描述
    这个公式中,如果有两个 v i v_i vi,它们本身是不同的,但却与相同的其他object有相同的关系,那么它们的输出就几乎是相同的,因为在求和中仅仅是它们连接到自身的那条边不一样,这某种程度上也是因为第一个式子的右边 v i v_i vi没有直接参与到运算的原因(除了和自己相连的那次)

  • 2 gate和attention的区别
    在这里插入图片描述
    注意到文中对于不同的连接使用了gate,这样做和用attention用啥区别?attention-based简写就是
    v i ( 1 ) = ρ ( ∑ λ v i , v j ( W v + b ) ) v_i^{(1)}=\rho(\sum \lambda_{v_i,v_j}(Wv+b)) vi(1)=ρ(λvi,vj(Wv+b))

λ v i , v j = s o f t m a x ( W v + b ) \lambda_{v_i,v_j}=softmax(Wv+b) λvi,vj=softmax(Wv+b)

### 数据增强技术在多模态3D目标检测中的应用 对于多模态3D目标检测,在计算机视觉领域内,数据增强方法旨在通过变换输入数据来增加模型训练的有效样本数量并提升泛化能力。具体到多模态场景下,这些方法不仅涉及图像层面的操作,还包括点云和其他传感器信号的处理。 #### 图像域的数据增强 传统的二维图像上的几何变换同样适用于基于摄像头获取的RGB图片或热成像图等: - **随机裁剪与缩放**:通过对原始图像执行不同尺度下的裁切操作,可以模拟远近变化的效果[^1]。 - **颜色抖动**:调整亮度、对比度、饱和度等因素有助于提高算法应对复杂光照条件的能力。 ```python import torchvision.transforms as transforms transform = transforms.Compose([ transforms.RandomResizedCrop(size=(224, 224), scale=(0.8, 1.2)), transforms.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2), ]) ``` #### 点云域的数据增强 针对LiDAR或其他雷达设备产生的三维空间坐标集合——即点云数据,则有专门设计的技术手段用于扩充其多样性: - **旋转和平移扰动**:沿任意轴向施加微小角度偏转或是位移量级内的变动能够有效防止过拟合现象的发生。 - **噪声注入**:引入高斯分布形式的小幅波动至各维度数值上,以此检验网络结构鲁棒性的强弱程度。 ```python import numpy as np def apply_noise(points, sigma=0.01): noise = np.random.normal(scale=sigma, size=points.shape) noisy_points = points + noise return noisy_points ``` #### 跨模态联合增强策略 考虑到多种感知源之间可能存在关联性特征共享的情况,跨模态同步实施相同类型的转换动作显得尤为重要。比如当对相机视角做水平翻转变换时,也应相应地改变激光雷达所记录下来的物体朝向信息;同理,在调节色彩参数的同时保持其他物理属性不变等等。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值