A Multilevel Multimodal Fusion Transformer for Remote Sensing Semantic Segmentation
多级多模态融合变压器遥感语义分割
Xianping Ma,Xiaokang Zhang , Member, IEEE, Man-On Pun , Senior Member, IEEE, and Ming Liu
论文地址
代码地址
1.INTRODUCTION
只有少数工作致力于多模态融合任务(根据不同模态的特性融合多模态信息),强调根据不同模态的特性融合多模态信息。与自然图像相比,高分辨率遥感图像具有更严重的光谱异质性和更复杂的空间结构,此外,遥感数据中的地物在尺寸和形状上表现出更大的变化,这使得定位和识别目标变得困难,结果表明,从CV领域衍生出的基于CNN和Transformer的模型在有效学习判别性综合特征方面仍存在局限性。
解决多模态的三种策略:
- 早期融合:需要对多模态数据进行适当的对齐,并且可能缺乏对任务无关信息的鲁棒性。
- 晚期融合:利用多模态数据之间的交叉相关性方面能力有限。
- 中期融合:能够捕捉特征表示的跨模态依赖关系,使其在表示学习的背景下更加有效。
现有工作通常基于求和或拼接进行单层特征融合,忽略了不同特征层次上的长距离跨模态依赖关系。
2. 网络结构

在CNN主干网络中,SFF模块被用于浅层特征融合,而在FViT中的Ada-MBA层则被设计用于深层特征融合。双模态数据(即可见光图像和DSM数据)被用来详细说明所提出的FTransUNet,可见光图像被视为主要模态,而DMS数据则作为辅助模态,因为主要模态通常比辅助模态为地表分类提高更多的信息。
总体来说,这个网络框架也是一种编码器-解码器的结构,然后引入了自注意力机制、交叉注意力机制、残差网络,其他的就是对特征图的下采样和上采样。对图片的处理利用了两个ResNet分支结构,来分别提取可见光图像特征(VIS)和数字表面模型(DSM)的特征。每次下采样之后会通过SFF模块进行特征增强(特征图的拼接),经过四次下采样之后,将特征图展平(这里就和ViT的处理方式一样,其实我感觉前面的步骤除了SFF(浅特征融合)模块,其他的就和TransUNet的处理方式一模一样),然后将VIS和DSM展开后送入FViT处理,这里面包含了自注意力和交叉注意力,处理完之后就进行解码操作了,我还是觉得主要的变化全是在编码阶段,无论是跳连接还是解码操作和U-Net完全一样。
2.1 CNN融合

FTransNet在对图片处理阶段类似于TransUNet,它这里的输入分为了单通道的数字表面模型特征和可见光图片,对于每个分支来说,它通过四次卷积进行下采样,用于提取多尺度特征,特征图一次变为1/2、1/4、1/8,每次卷积操作后有一次SFF(浅特征融合),融合后的特征会被融合到下次的VIS中,并且还会通过跳连接,与解码阶段对应的特征图进行拼接融合。下面是SFF模块图示:

SFF模块就比较简单了,对VIS和DSM进行全局平均池化,然后是两个1*1的卷积,以及ReLU和Sigmoid函数,处理完之后,将来自VIS和DSM的特征经过加权并通过逐元素相加的方式融合,从而生成最终的浅层融合特征。
2.2 Fusion Vision Transformer

接着上面的下采样过程后,最后一次采样后的特征图进行了Embedding(这里是ViT里面的操作),传入到FViT中的特征图分别为xI(VIS)和yl(DSM),原文中是这么说的“ x l x_l xl和 y l y_l yl首先通过两个嵌入层和一个重塑操作进行标记化处理。嵌入层将输入的通道数从 C l C_l Cl改变为 C h i d C_{hid} Chid,随后重塑操作将嵌入层的输出战平为两个二维补丁序列,分别记为 z x 0 z_x^0 zx0和 z y 0 z_y^0 zy0,其大小为 C h i d × L C_{hid} \times L Chid×L,其中 L = ( H × W ) / ( 2 I − 1 × 2 I − 1 ) L=(H \times W)/(2^{I-1} \times 2^{I-1}) L=(H×W)/(2I−1×2I−1)是序列长度。为了保留位置信息,特定的位置嵌入被添加到向量化补丁 z x 0 z_x^0 zx0和 z y 0 z_y^0 zy0中。之后,标记 z x 0 z_x^0 zx0和 z y 0 z_y^0 zy0被输入到FViT中”。简单来说就是下采样结束后将特征图进行PatchEmbedding,这里就是ViT中的操作。接下来是FViT中的具体操作:
在FViT中以此有有 N 1 N_1 N1个SA操作、 N 2 N_2 N2个Ada-MBA操作、 N 3 N_3 N3个SA操作,SA层是用于深层特征增强的自注意力层,Ada-MBA是用于深层特征融合,SA层用于融合特征增强。下图是SA和Ada-MBA的具体操作:
这里的 z x n z_x^n zxn和 z y n z_y^n zyn分别为第 n n n层在VIS分支和DSM分支中的隐藏特征,其中 n ∈ { 1 , 2... , N 1 + N 2 + N 3 } n \in \{1,2...,N_1+N_2+N3\} n∈{
1,2...,N1+N2+N3}(最开始我懵了一下,为什么 n n n的大小可以到 N 1 + N 2 + N 3 N_1+N_2+N_3

最低0.47元/天 解锁文章
1437

被折叠的 条评论
为什么被折叠?



