【语义分割】——多层特征的融合

语义分割是像素级分类问题,有高分辨率和高层语义两大需求,与卷积网络设计矛盾。高层和低层特征各有弱点,FCN、U-Net、FPN采用融合高低层特征策略。融合存在特征有效性和空间对齐问题,为此提出GFF,还有Semantic Flow和AlignSeg借鉴光流对齐不同层特征。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述
转载自:语义分割-多层特征融合
尊重原创,请读原文

语义分割,也称为像素级分类问题,其输出和输入分辨率相同(如题图中,左边为2048x1024分辨率的Cityscapes街景图像,输入模型,得到右边同样分辨率的语义图)。由此,语义分割具有两大需求,即高分辨率和高层语义,而这两个需求和卷积网络设计是矛盾的。

卷积网络从输入到输出,会经过多个下采样层(一般为5个,输出原图1/32的特征图),从而逐步扩大视野获取高层语义特征,高层语义特征靠近输出端但分辨率低,高分率特征靠近输入端但语义层次低。高层特征和底层特征都有各自的弱点,各自的分割问题如图1所示,第二行高层特征的分割结果保持了大的语义结构,但小结构丢失严重;第三行低层特征的分割结果保留了丰富的细节,但语义类别预测的很差。

一个自然的想法就是融合高低层特征,取长补短,分割经典工作FCN和U-Net均采用了这个策略,物体检测中常用的特征金字塔网络(FPN)也是采用了该策略。为下文需要,先介绍两类融合策略,一类是FPN,先自下而上获取高层语义特征,再通过自上而下逐步上采样高层语义特征,并融合对应分辨率的下层特征;另一类是HRNet,自下而上包含多个分辨率通路,不同分辨率特征在自下而上过程中及时进行融合。

在这里插入图片描述

在这里插入图片描述
可能问题:
待融合的低分辨率高层特征一般通过双线性插值到低层特征的相同分辨率,然后通过相加或沿通道维拼接的方式进行融合。这里引入了两个问题,1.是否每个位置的高低层特征都是同等有效;2.高低层特征空间上存在对不齐的问题,简单上采样无法解决。

对问题1,我们提出了GFF,借鉴LSTM中的Gate机制,在不同位置给高低层特征根据有效性,给予不同的加权。
在这里插入图片描述
对问题2,最近arXiv上先后放出了两篇工作[1, 2],都是借鉴光流(对齐不同帧图像)来对齐不同层特征。其中,Semantic Flow [1]是基于FPN的自上而下策略,AlignSeg [2]是基于HRNet的自下而上策略。

Semantic Flow实现非常简单,首先引入Flow Alignment Module (FAM,图5),然后改造FPN(图6)。该方法由于没有使用常用的高层用带孔卷积替代下采样操作,整个网络计算量小、显存消耗少。
在这里插入图片描述
在这里插入图片描述
图6

该方法的优势是既快又准,如下图所示,ResNet18 backbone以26 FPS速度取得了80.4 mIoU。
在这里插入图片描述
AlignSeg采用类似HRNet保持分辨率的做法(图7),在保持分辨率过程中使用特征对齐模块(AlignFA)进行不同分辨特征之间的融合。

在这里插入图片描述

图8: AlignSeg(图源[2])

### 基于 Transformer 的语义分割方法综述 #### SETR 方法介绍 复旦大学提出的 SE TR (Semantic Extraction using Transformers) 是一种基于 Transformer 的语义分割模型。该方法重新思考了从序列到序列的角度进行语义分割的可能性,并引入了 Transformer 架构来处理图像数据[^1]。 SETR 主要特点在于其直接应用原始的 Transformer 结构来进行像素级预测,而不需要额外设计复杂的解码模块。此方法展示了强大的表达能力,在多个公开基准测试上取得了领先的结果。 #### Segmenter 模型解析 Segmenter 则代表了一种纯粹依赖 Vision Transformer 实现端到端训练的语义分割框架。它完全舍弃了传统的 CNN 组件,仅依靠多层堆叠的标准 ViT(Vision Transformer)作为骨干网路完成特征提取任务[^2]。这种简洁的设计不仅简化了整体架构,同时也提高了计算效率。 #### 小目标检测中的创新点 对于特定应用场景下的小目标检测问题,现有的一些先进方案采用了新颖的技术手段加以优化。例如,通过对高分辨率或多尺度特征图实施高效的注意力机制;或是构建全 Transformer 驱动的目标识别流水线等措施均有助于提升对细粒度物体定位精度[^3]。 #### 小样本学习领域进展 在面对有限标注资源的情况下,研究者们探索出了多种有效的解决方案用于解决少样本条件下的语义分割挑战。其中最具代表性的是基于度量的方法——即通过衡量已知类别实例与未知区域之间的相似程度来进行决策。这种方法能够充分利用少量样本来指导新类别的推断过程,从而有效缓解过拟合现象的发生[^4]。 #### 特征融合策略探讨 为了更好地捕捉多层次的空间上下文关系,某些工作尝试将来自不同层次编码器输出的信息予以综合考虑。具体做法包括但不限于调整各阶段卷积特征尺寸使其一致化之后再做进一步聚合处理,最终形成更为丰富的表征形式供后续分类使用[^5]。 ```python import torch.nn as nn class FeatureFusionModule(nn.Module): def __init__(self, in_channels_list, out_channel): super(FeatureFusionModule, self).__init__() # 定义逐点卷积和其他必要的组件 def forward(self, feature_maps): resized_features = [] for feat_map in feature_maps: resized_feat = F.interpolate(feat_map, size=(H,W), mode='bilinear', align_corners=True) resized_features.append(resized_feat) fused_feature = sum(resized_features)/len(resized_features) output = self.conv_layer(fused_feature) return output ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值