A Multilevel Multimodal Fusion Transformer for Remote Sensing Semantic Segmentation（论文阅读笔记）

原创

已于 2025-03-19 21:07:21 修改 · 1.2k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #论文阅读 #笔记

于 2025-03-09 21:37:56 首次发布

A Multilevel Multimodal Fusion Transformer for Remote Sensing Semantic Segmentation
多级多模态融合变压器遥感语义分割
Xianping Ma，Xiaokang Zhang , Member, IEEE, Man-On Pun , Senior Member, IEEE, and Ming Liu
论文地址
 代码地址

1.INTRODUCTION

只有少数工作致力于多模态融合任务（根据不同模态的特性融合多模态信息），强调根据不同模态的特性融合多模态信息。与自然图像相比，高分辨率遥感图像具有更严重的光谱异质性和更复杂的空间结构，此外，遥感数据中的地物在尺寸和形状上表现出更大的变化，这使得定位和识别目标变得困难，结果表明，从CV领域衍生出的基于CNN和Transformer的模型在有效学习判别性综合特征方面仍存在局限性。
解决多模态的三种策略：

早期融合：需要对多模态数据进行适当的对齐，并且可能缺乏对任务无关信息的鲁棒性。
晚期融合：利用多模态数据之间的交叉相关性方面能力有限。
中期融合：能够捕捉特征表示的跨模态依赖关系，使其在表示学习的背景下更加有效。
现有工作通常基于求和或拼接进行单层特征融合，忽略了不同特征层次上的长距离跨模态依赖关系。

2. 网络结构

请添加图片描述
在CNN主干网络中，SFF模块被用于浅层特征融合，而在FViT中的Ada-MBA层则被设计用于深层特征融合。双模态数据（即可见光图像和DSM数据）被用来详细说明所提出的FTransUNet，可见光图像被视为主要模态，而DMS数据则作为辅助模态，因为主要模态通常比辅助模态为地表分类提高更多的信息。
总体来说，这个网络框架也是一种编码器-解码器的结构，然后引入了自注意力机制、交叉注意力机制、残差网络，其他的就是对特征图的下采样和上采样。对图片的处理利用了两个ResNet分支结构，来分别提取可见光图像特征（VIS）和数字表面模型（DSM）的特征。每次下采样之后会通过SFF模块进行特征增强（特征图的拼接），经过四次下采样之后，将特征图展平（这里就和ViT的处理方式一样，其实我感觉前面的步骤除了SFF（浅特征融合）模块，其他的就和TransUNet的处理方式一模一样），然后将VIS和DSM展开后送入FViT处理，这里面包含了自注意力和交叉注意力，处理完之后就进行解码操作了，我还是觉得主要的变化全是在编码阶段，无论是跳连接还是解码操作和U-Net完全一样。

2.1 CNN融合

请添加图片描述
FTransNet在对图片处理阶段类似于TransUNet，它这里的输入分为了单通道的数字表面模型特征和可见光图片，对于每个分支来说，它通过四次卷积进行下采样，用于提取多尺度特征，特征图一次变为1/2、1/4、1/8，每次卷积操作后有一次SFF（浅特征融合），融合后的特征会被融合到下次的VIS中，并且还会通过跳连接，与解码阶段对应的特征图进行拼接融合。下面是SFF模块图示：
请添加图片描述
SFF模块就比较简单了，对VIS和DSM进行全局平均池化，然后是两个1*1的卷积，以及ReLU和Sigmoid函数，处理完之后，将来自VIS和DSM的特征经过加权并通过逐元素相加的方式融合，从而生成最终的浅层融合特征。

2.2 Fusion Vision Transformer

请添加图片描述
接着上面的下采样过程后，最后一次采样后的特征图进行了Embedding（这里是ViT里面的操作），传入到FViT中的特征图分别为xI(VIS)和yl(DSM)，原文中是这么说的“ $x_l$ 和 $y_l$ 首先通过两个嵌入层和一个重塑操作进行标记化处理。嵌入层将输入的通道数从 $C_l$ 改变为 $C_{hid}$ ，随后重塑操作将嵌入层的输出战平为两个二维补丁序列，分别记为 $z_x^0$ 和 $z_y^0$ ，其大小为 $C_{hid} \times L$ ，其中 $\times W)/(2^{I-1} \times 2^{I-1})$ 是序列长度。为了保留位置信息，特定的位置嵌入被添加到向量化补丁 $z_x^0$ 和 $z_y^0$ 中。之后，标记 $z_x^0$ 和 $z_y^0$ 被输入到FViT中”。简单来说就是下采样结束后将特征图进行PatchEmbedding，这里就是ViT中的操作。接下来是FViT中的具体操作：
在FViT中以此有有 $N_1$ 个SA操作、 $N_2$ 个Ada-MBA操作、 $N_3$ 个SA操作，SA层是用于深层特征增强的自注意力层，Ada-MBA是用于深层特征融合，SA层用于融合特征增强。下图是SA和Ada-MBA的具体操作：请添加图片描述
这里的 $z_x^n$ 和 $z_y^n$ 分别为第 $n$ 层在VIS分支和DSM分支中的隐藏特征，其中 $\in \{1,2...,N_1+N_2+N3\}$ （最开始我懵了一下，为什么 $n$ 的大小可以到 $N_1+N_2+N_3$

最低0.47元/天解锁文章