【CVPR2022】DIFNet: Boosting Visual Information Flow for Image Captioning
论文主要贡献
- 提出了一个双信息流网络(DIFNet ),它将分割特征作为一个附加的视觉信息源。DIFNet可以增强视觉内容对预测的贡献。
- 提出了一个称为迭代独立层归一化(IILN)的特征融合模块,它可以通过一个公共LN层压缩最相关的输入,同时通过私有LN层重新训练每个流中的特定于通道的信息。
引言
图像描述是基于给定图像生成自然语言描述的任务。它需要一个模型来从多个方面理解给定的图像,包括识别对象、动作以及关系,并为该图像生成语言描述。标准范例可以表述为: y t = F l ( E v ( V ) , w 0 , w 1 , w 2 , . . . , w t − 1 ) y_t= \mathcal F_l(E_v(V),w_0,w_1,w_2,...,w_{t-1}) yt=Fl(Ev(V),w0,w1,w2,...,wt−1)其中 y t y_t yt表示预测结果, E v E_v Ev表示视觉编码器, F l \mathcal F_l Fl表示语言解码器。
编码器-解码器框架已广泛用于图像描述任务。编码器采用一组视觉特征作为输入,并进一步将它们编码到视觉语言空间中。然后,解码器使用编码器提供的视觉信息和部分生成的字幕来预测下一个单词。然而大多数现有的方法的缺点是:来自视觉特征提取器的视觉信息是不充分的,有时是不准确的。迫使解码器过度依赖部分生成的描述来预测剩余的文字,这个问题最终使得生成的描述与实际的视觉内容不相关,如下图(顶部)所示。
为了克服上述图像描述的缺点,本文考虑引入分割图作为新的视觉线索,其中分割区域语义与网格特征自然对齐。如上图底部所示,分割图可被视为空间语义指导,并为网格特征提供粗粒度上下文,以促进图像理解。一方面,它的像素级类别信息有助于纠正由于网格特征中的不可靠信息而被误判的类别。另一方面,它的空间信息也有助于推断潜在的语义和空间关系。
受此激励,作者提出了双信息流网络(DIFNet),为了最大化两个视觉信息流的优势,提出了一个有效的特征融合模块,称为迭代独立层归一化(Iterative Independent Layer Normalization,IILN ),它可以通过一个公共LN层压缩最相关的输入,同时通过私有LN层重新训练每个信息流中的特定通道信息,并采用额外的跳跃连接来进一步增强编码器和解码器内部以及之间的信息流。
论文方法
DIFNet架构如下图所示。首先沿着网格流和分割流提取网格特征和分割特征。接下来,分割特征和网格特征被提出的IILN模块融合在一起,以丰富视觉推理的信息。此外,探索额外的跳跃连接以进一步增强编码器和解码器内部和之间的信息流。
分割特征
全景分割图包含每个像素的语义类别信息和判别实例信息。因此,全景分割图可以被视为高级视觉语义线索,并提供粗粒度的上下文。为了简单有效地拟合网格特征,作者只从全景分割网络的语义分割头中提取语义分割图而不是全景分割图,然后将它们转换为语义特征向量 S S S,其中 S ∈ R H × W × C S \in \R^{H×W ×C} S∈RH×W×C, C C C, H H H和 W W W分别表示类别数、高度和宽度。集成了分割特征之后,范例可以被公式化为: y t = F l ( E v ( V , S ) , w 0 , w 1 , w 2 , . . . , w t − 1 ) y_t= \mathcal F_l(E_v(V,S),w_0,w_1,w_2,...,w_{t-1}) yt=Fl(Ev(V,S),w0,w1,w2,...,wt−1)
融合网格与分割特征
作者首先介绍了一种原始的多模态特征融合方式,给定特征
Z
v
Z_v
Zv和
Z
s
Z_s
Zs,通过参数
l
l
l来控制两种特征的处理过程,
0
<
l
<
N
e
0<l<N_e
0<l<Ne,
N
e
N_e
Ne是transformer的层数。设定层数
L
f
L_f
Lf,当
l
<
L
f
l<L_f
l<Lf时,两种特征分别使用编码器处理,当
l
=
=
L
f
l==L_f
l==Lf将两种特征进行相加处理,之后只用相加处理后的特征进行计算,公式化为如下:
但上述处理过程中,“早期融合”不能保留两种特征的特定模式,“晚期融合”不能有效地在两种特征之间交换信息,“晚期融合”和“中期融合”都引入了大量的参数。
作者提出了迭代独立层归一化(IILN)来克服上述问题,其结构如下图所示。
当
l
<
L
f
l<L_f
l<Lf时,使用IILN处理网格和分割特征,首先共享MHSA层和PWFF层的参数,避免增加网络参数。并且采用公共LN层来获得包括跨越两种表示的公共信息的单个分布:
其中,
θ
θ
θ是MHSA和PWFF的模型参数,
α
α
α和
β
β
β是可学习的尺度和位移参数。然后,应用两个私有LN层将单一分布拟合为两个特定模式的分布,该分布整合了每个表征的私有信息(通过私有LN层的拟合变换和剩余连接)和两个表征的共同信息(通过共同LN层):
最后,应用PWFF和两个私人LN来进一步增强两个表征:
作者还在IILN上应用迭代,以适当的迭代次数T来将更多的信息整合到每个表示中。在IILN之后,两个表征的分布将更接近于彼此,同时保持特定模式的信息。
跳跃连接
注意机制的独特性质使其能够过滤掉不相关的信息。然而,它也可能过滤掉一些脆弱但潜在有用的信息。为了加强编码器和解码器内部和之间的信息流,以保护一些脆弱的视觉信息不被注意力层过滤掉,作者在编码处理过程中添加了额外的跳跃连接。
首先在变换器的MHSA上增加一个额外的跳跃连接,可以表述为:
M
=
L
N
(
L
N
(
M
H
S
A
(
Z
)
+
Z
)
+
Z
)
M=LN(LN(MHSA(Z)+Z)+Z)
M=LN(LN(MHSA(Z)+Z)+Z)另外从IILN层获得的信息在通过多个transformer层后可能无法有效保留。作者增加了从第
L
f
L_f
Lf个编码器层的输出到编码器最终输出的跳跃连接,以迫使来自各种流量的有用信息直接流入解码器:
Z
=
Z
v
s
N
e
+
Z
v
L
f
+
Z
s
L
f
Z=Z_{vs}^{N_e}+Z_{v}^{L_f}+Z_{s}^{L_f}
Z=ZvsNe+ZvLf+ZsLf在将IILN与跳跃连接相结合后,来自编码器的视觉信息得到了最大化。
实验
实验设置
作者在MSCOCO数据集进行实验评估,并使用"Karpathy "测试分割方法处理数据集。网格特征提取器的主干是ResNeXt-101,特征大小为7x7,采用UPSNet作为分割特征提取器,主干也是ResNet-101,将来自语义分割头的分割图转换为语义特征向量S,其大小为H×W×133。
分割特征实验分析
特征质量的影响
下表展示了配有不同质量视觉特征和分割特征的DIFNet变体的实验结果。对于视觉特征,分别采用ResNeXt-101和ResNeXt-152骨干网提取的特征。对于分割特征,分别采用配备了ResNet50、ResNet-101骨干网和ground-truth(GT)的UPSNet提取的特征。
特征尺寸的影响
比较了不同输入特征大小H′×W′∈{7×7,10×10,14×14}的模型,如下表所示。与特征尺寸为7×7的模型相比,更大的尺寸并没有带来明显的性能提升,同时增加了巨大的计算成本。这是潜在的,因为大尺寸使自我注意难以决定哪些网格需要参加。
基础模型的影响
为了显示分割特征的通用性,作者在不同的transformer模型上进行实验,结果如下表所示,其中对于M2 Transformer,使用原始架构,并提供两个版本的结果,一个使用本文的epoch衰减时间表,另一个应用原始预热学习率政策。对于AoA Transformer,使用AoA Refine模块替换了基线Transformer的编码器层,并使用与基线相同的解码器,这样设置的原因是,编码器主要与分割特征有关。
融合方法的影响
作者探索了不同的方法来融合网格特征和分割特征,如MIA、VSA和我们的IILN(T=2)。并且研究了改变融合层Lf=0、1、2、3对VSA和ILN的影响,结果如下表所示。可以看到,在Lf=1时取得了最佳性能。进一步增加Lf不仅降低了性能,而且还增加了参数和计算成本。与MIA和VSA融合模型相比,IILN可以保持相同的参数数量而不出现明显的性能下降。
同时作者还比较了不同迭代时间T的ILN(Lf =1)。如下图所示,计算成本随T线性增加,而最佳性能是在T=3左右达到的。随着T的继续增加,性能开始下降,这可能是由于太多的迭代导致过度平滑问题。
信息流的实验分析
跳跃连接的影响
作者研究了具有额外跳跃连接的模型。我们首先进行实验在只有网格特征的Vanilla Transformer上,探索在哪里添加额外的跳过连接:(i)MHSA和PWFF;(ii)MHSA;(iii)解码器中只有MHSA。然后,我们从 L f L_f Lf编码器层的输出到MIA、VSA和IILN的编码器的输出添加一个额外的跳过连接。
结果如下表所示。总的来说,带有额外跳过连接的模型可以明显提高性能。此外带有跳过连接的IILN融合模型得到了最大的好处。为了找出它的原因,作者还进行了一个实验,用两个私有的LN层来代替普通的LN层。我们可以看到,它的表现与跳过连接的VSA相似,这有可能是因为公共LN层使融合表征分布和每个流表征分布相互接近,这样它们在被输入到解码器之前更容易聚合。
视觉信息的贡献
作者使用
α
β
−
L
R
P
αβ-LRP
αβ−LRP来评估视觉信息在每个时间步骤中对预测的贡献。请注意,在每个时间步骤,视觉信息和部分描述的上下文的贡献之和等于1。
与最先进的技术比较
总结
这项工作提出了DIFNet来生成忠实于给定图像的描述。首先利用分割特征,通过迭代独立LN(IILN)融合模块增强网格视觉表示,以最大限度地利用两个信息流。还使用额外的跳跃连接来增强编码器和解码器内部和之间的信息流,以保护一些脆弱的视觉信息。实验表明,具有分割特征的各种变换器变体得到了更好的性能,具有分割特征的DIFNet超过了最先进的方法。全面的消融研究揭示了导致这一成功的几个关键因素,并表明双重信息流在提升预测对视觉内容的依赖性方面非常有效。
部分实验细节作者在附录有提到,不明白的地方或者感兴趣的可以观看原文