UNetFormer

原创

已于 2025-03-27 16:13:14 修改 · 1.2k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #论文阅读 #深度学习 #计算机视觉

于 2025-03-26 20:28:20 首次发布

UNetFormer: A UNet-like transformer for efficient semantic segmentation of remote sensing urban scene imagery
UNetFormer：一种用于高效遥感城市场景图像语义分割的类UNet变压器模型
论文地址
 代码地址

1. 介绍

轻量级设计：UNetFormer使用了ResNet18作为编码器。
全局-注意力机制：通过三个全局-局部Transformer块在解码器中同时捕获多尺度的全局和局部上下文信息。
特征精细化头部（FRH）：通过加权融合浅层的空间细节和深层语义信息，进一步提升分割精度。

这篇论文的基础网络结构是U-Net，编码器使用ResNet18，解码器修改为设计的模块，主要还是使用Transformer，切入点是如果直接使用Transformer的话，会导致计算复杂度增加并且会丢失空间细节信息，因此作者设计的模块通过全局-局部注意力机制模块，解决了计算复杂度、全局上下文的信息和空间细节方面的不足。

2. 网络结构

请添加图片描述

2.1 CNN-based encoder

编码器阶段采用预训练的ResNet18，编码后的特征图通过1 $\times$ 1的卷积与解码器对于阶段的特征图进行融合，也就是跳跃连接。具体来说，ResBlock生成的语义信息通过加权求和与解码器阶段的GLTB模块生成的特征进行融合，加权求和操作的公式可以表示为： $FF=\alpha\cdot RF+(1-\alpha)\cdot GLE$ ，其中，