SFA-Net: Semantic Feature Adjustment Network for Remote Sensing Image Segmentation
SFA-Net:远程语义特征调整网络遥感图像分割
Gyutae Hwang 1,† , Jiwoo Jeong 1,† and Sang Jun Lee 2,*
论文地址
代码地址
1.摘要
在本文中,我们提出了一种混合Transformer架构,该架构由基于CNN的编码器和基于Transformer的解码器组成。我们设计了一个特征调整模块,用于优化从EfficientNet骨干网络中提取的多尺度特征图。经过调整的特征图被集成到基于Transformer的解码器中,以实现遥感图像的语义分割。本文将所提出的编码器-解码器架构称为语义特征调整网络(SFA-Net)。为验证SFA-Net的有效性,我们在四个公开基准数据集上进行了全面实验,包括UAVid、ISPRS Potsdam、ISPRS Vaihingen和LoveDA数据集。实验结果表明,所提出的模型在UAVid、ISPRS Vaihingen和LoveDA数据集上的遥感图像分割任务中达到了最先进的精度。在ISPRS Potsdam数据集上,我们的方法在精度上与最新模型相当,同时将可训练参数数量从113.8M减少到了10.7M。
2. 引言
遥感图像的分割面临诸多挑战,包括不可预测的天气条件、地形变化以及人工设施的各种形状。为了准确分割遥感图像,分析目标物体及其周围环境的视觉特征至关重要。局部上下文包含小区域内的视觉信息,而全局上下文则代表高分辨率图像的整体特征以及目标与其周围环境之间的关系。由于遥感图像的分析需要理解局部和全局上下文,因此设计一种适当的深度学习架构以实现鲁棒性能非常重要。尽管已有许多基于CNN和Transformer架构的深度学习模型被提出,但在提高分割算法精度方面仍存在困难。为克服这些局限性,我们提出了一种混合分割模型,该模型由基于CNN的编码器和基于Transformer的解码器组成,用于从多尺度视觉特征中分析局部和全局信息。
在本文中,我们提出了一种轻量化的深度学习模型,用于遥感图像的语义分割。所提出的模型由基于CNN的编码器和基于Transformer的解码器组成,旨在捕捉局部和全局上下文以补充语义信息。通过引入特征调整模块(FAMs),从CNN编码器中提取的多尺度特征图被有效集成到基于Transformer的解码器中。我们的深度学习模型被称为SFA-Net,其主要贡献总结如下:
- 我们提出了FAMs,用于优化从CNN编码器中提取的多尺度特征图。
- 我们提出了SFA-Net,该模型由CNN编码器、Transformer解码器和两个FAMs组成。
- 我们在四个基准数据集(包括UAVid、ISPRS Potsdam、ISPRS Vaihingen和LoveDA)上验证了所提出模型的有效性。
(以上都是论文中的原话)
3. 网络结构

我们先来看一下整体的网络结构,首先编码阶段采用的是四个EfficientNet模块,采用的CNN,在解码阶段采用了三个混合Transformer的解码模块,接着有两个FAM模块,这个模块是用来今天特征调整的,一个FRH模块,还有WF加权函数。
3.1 Efficient CNN-Based Encoder
在编码阶段,作者采用了四个级别的EfficientNet模块,每个模块捕获的语义信息送入到FAMs(特征聚合模块)。(EfficientNet模块不太了解,后面再去读一下这篇论文)
3.2 Feature Adjustment Module(特征聚合模块)
最近读的论文我发现好多都有这样的一个模块,比如上一篇文章中,他也有个特征聚合的模块,它是将高频信息和低频信息的一个融合。这篇论文中的特征聚合没有之前的复杂,如下图:
首先我们要知道,FAM1将 E 1 , E 2 E_1, E_2 E1,E

最低0.47元/天 解锁文章
260

被折叠的 条评论
为什么被折叠?



