【论文阅读】Swin Transformer Embedding UNet用于遥感图像语义分割
文章目录
Swin Transformer Embedding UNet for Remote Sensing Image Semantic Segmentation
全局上下文信息是遥感图像语义分割的关键
具有强大全局建模能力的Swin transformer
提出了一种新的RS图像语义分割框架ST-UNet型网络(UNet)
解决方案:将Swin transformer嵌入到经典的基于cnn的UNet中
ST-UNet由Swin变压器和CNN并联构成了一种新型的双编码器结构
相应结构:
- 建立像素级相关性来编码Swin变压器块中的空间信息
- 构造了特征压缩模块(FCM)
- 作为双编码器之间的桥梁,设计了一个关系聚合模块(RAM)
数据集的使用:
- Vaihingen
- Potsdam
一、相应介绍
具体作用:
- 编码器用于提取特征
- 解码器在融合高级语义和低级空间信息的同时,尽可能精细地恢复图像分辨率
u型网络(UNet)[14]利用解码器通过跳过连接来学习相应编码阶段的空间相关性
利用变压器的编码器-解码器结构来模拟序列中元素之间的相互作用。
本文针对CNN在全局建模方面的不足,提出了一种新的RS图像语义分割网络框架ST-UNet
相应结构层次:
- 以UNet中的编码器为主编码器,Swin变压器为辅助编码器,形成一个并行的双编码器结构
- 设计良好的关系聚合模块(RAM)构建了从辅助编码器到主编码器的单向信息流
- RAM是ST-UNet的关键组件
- 将SIM卡附加到Swin变压器上,以探索全局特征的空间相关性
- 使用FCM提高小尺度目标的分割精度
相应贡献:
- 构建了空间交互模块(SIM),重点关注空间维度上的像素级特征相关性,SIM还弥补了Swin变压器窗口机制所限制的全局建模能力
- 提出了特征压缩模块(FCM),以缓解patch token下采样过程中小尺度特征的遗漏
- 设计了一个随机存储器,从辅助编码器中提取与chanel相关的信息作为全局线索来指导主编码器
二、相关工作
2.1 基于CNN的遥感图像语义分割
存在数据集:
- IEEE地球科学与遥感学会(IGARSS)数据融合大赛
- SpaceNet比赛
- DeepGlobe比赛
在检测方面的发展过程
(1)在最开始的发展中,多分支并行卷积结构生成多尺度特征图,并设计自适应空间池化模块聚合更多局部上下文
(2)引入了多层感知器(MLP),以产生更好的分割结果,最早是在自然语言中使用的。
(3)关注了小尺度特征的特征提取
(4)结合了基于patch的像素分类和像素到像素分割,引入了不确定映射,以实现对小尺度物体的高性能
(5) 通过密集融合策略实现小尺度特征的聚合
(6)明确引入边缘检测模块[43]来监督边界特征学习
(7)提出了两个简单的边缘损失增强模块来增强物体边界的保存
2.2 Self-Attention机制
最早的注意力在计算机视觉领域
(1)Zhao et al[45]和Li et al[46]分别给出了视频字幕的区域级注意和帧级注意
(2)SENet[48]通过全局平均池化层表示通道之间的关系,自动了解不同通道的重要性
(3)CBAM[49]将通道级注意和空间级注意应用于自适应特征细化
(4)Ding等[19]提出了patch attention module来突出feature map的重点区域
(5)在GCN[51]框架的每个阶段引入通道注意块,对特征图进行分层优化
(6)[52] 关注小批量图像中的相似对象,并通过自注意机制对它们之间的交互信息进行编码
2.3 Vision Transformer
首次提出用于机器翻译任务[53],超越了以往基于复杂递归或cnn的序列转导模型
标准transformer由多头自注意(MSA)、多层感知器(MLP)和层归一化(LN)组成
通过分割和扁平化将图像数据转化为一系列tokens
密集的预测任务,ViT仍然

文章提出了一种名为ST-UNet的新框架,将SwinTransformer融入传统的CNN-basedUNet,以增强全局建模能力,特别是对于遥感图像的语义分割任务。ST-UNet采用双编码器结构,利用SwinTransformer和CNN的互补优势,同时通过空间交互模块(SIM)和特征压缩模块(FCM)提高分割精度,解决了小尺度目标分割的挑战。实验在Vaihingen和Potsdam数据集上进行,展示了方法的有效性。
最低0.47元/天 解锁文章
1360

被折叠的 条评论
为什么被折叠?



