SFA-Net: Semantic Feature Adjustment Network for Remote Sensing Image Segmentation-优快云博客

SFA-Net: Semantic Feature Adjustment Network for Remote Sensing Image Segmentation
SFA-Net：远程语义特征调整网络遥感图像分割
Gyutae Hwang 1,† , Jiwoo Jeong 1,† and Sang Jun Lee 2,*
论文地址
 代码地址

1.摘要

在本文中，我们提出了一种混合Transformer架构，该架构由基于CNN的编码器和基于Transformer的解码器组成。我们设计了一个特征调整模块，用于优化从EfficientNet骨干网络中提取的多尺度特征图。经过调整的特征图被集成到基于Transformer的解码器中，以实现遥感图像的语义分割。本文将所提出的编码器-解码器架构称为语义特征调整网络（SFA-Net）。为验证SFA-Net的有效性，我们在四个公开基准数据集上进行了全面实验，包括UAVid、ISPRS Potsdam、ISPRS Vaihingen和LoveDA数据集。实验结果表明，所提出的模型在UAVid、ISPRS Vaihingen和LoveDA数据集上的遥感图像分割任务中达到了最先进的精度。在ISPRS Potsdam数据集上，我们的方法在精度上与最新模型相当，同时将可训练参数数量从113.8M减少到了10.7M。

2. 引言

遥感图像的分割面临诸多挑战，包括不可预测的天气条件、地形变化以及人工设施的各种形状。为了准确分割遥感图像，分析目标物体及其周围环境的视觉特征至关重要。局部上下文包含小区域内的视觉信息，而全局上下文则代表高分辨率图像的整体特征以及目标与其周围环境之间的关系。由于遥感图像的分析需要理解局部和全局上下文，因此设计一种适当的深度学习架构以实现鲁棒性能非常重要。尽管已有许多基于CNN和Transformer架构的深度学习模型被提出，但在提高分割算法精度方面仍存在困难。为克服这些局限性，我们提出了一种混合分割模型，该模型由基于CNN的编码器和基于Transformer的解码器组成，用于从多尺度视觉特征中分析局部和全局信息。

在本文中，我们提出了一种轻量化的深度学习模型，用于遥感图像的语义分割。所提出的模型由基于CNN的编码器和基于Transformer的解码器组成，旨在捕捉局部和全局上下文以补充语义信息。通过引入特征调整模块（FAMs），从CNN编码器中提取的多尺度特征图被有效集成到基于Transformer的解码器中。我们的深度学习模型被称为SFA-Net，其主要贡献总结如下：

我们提出了FAMs，用于优化从CNN编码器中提取的多尺度特征图。
我们提出了SFA-Net，该模型由CNN编码器、Transformer解码器和两个FAMs组成。
我们在四个基准数据集（包括UAVid、ISPRS Potsdam、ISPRS Vaihingen和LoveDA）上验证了所提出模型的有效性。
（以上都是论文中的原话）