UNetFormer: A UNet-like transformer for efficient semantic segmentation of remote sensing urban scene imagery
UNetFormer:一种用于高效遥感城市场景图像语义分割的类UNet变压器模型
论文地址
代码地址
1. 介绍
- 轻量级设计:UNetFormer使用了ResNet18作为编码器。
- 全局-注意力机制:通过三个全局-局部Transformer块在解码器中同时捕获多尺度的全局和局部上下文信息。
- 特征精细化头部(FRH):通过加权融合浅层的空间细节和深层语义信息,进一步提升分割精度。
这篇论文的基础网络结构是U-Net,编码器使用ResNet18,解码器修改为设计的模块,主要还是使用Transformer,切入点是如果直接使用Transformer的话,会导致计算复杂度增加并且会丢失空间细节信息,因此作者设计的模块通过全局-局部注意力机制模块,解决了计算复杂度、全局上下文的信息和空间细节方面的不足。
2. 网络结构

2.1 CNN-based encoder
编码器阶段采用预训练的ResNet18,编码后的特征图通过1 × \times × 1的卷积与解码器对于阶段的特征图进行融合,也就是跳跃连接。具体来说,ResBlock生成的语义信息通过加权求和与解码器阶段的GLTB模块生成的特征进行融合,加权求和操作的公式可以表示为: F F = α ⋅ R F + ( 1 − α ) ⋅ G L E FF=\alpha\cdot RF+(1-\alpha)\cdot GLE FF=α⋅RF+(1−α)⋅GLE,其中, F F FF

最低0.47元/天 解锁文章
1444

被折叠的 条评论
为什么被折叠?



