目录
前言
OSFormer是华科发表在ECCV 2022的一篇伪装实例分割的文章,提出了一种新的位置感知的一段式(one-stage)Transformer框架,采用了一种高效的位置感知Transformer来捕获全局特征,并动态回归伪装实例的位置和主干。OSFormer还进一步设计了多尺度特征融合,来整合从粗到细的多尺度特征,从而突出伪装实例的边缘,产生全局特征。
大量实验结果表明,OSFormer效果优于其他一直模型。此外,OSFormer只需要大约3000张图像进行训练,并且能快速收敛。因此,可以很容易的扩展到其他训练样本较小的下游视觉任务。
1. 模型的特点
OSFormer主要有以下三个特点:
- 基于Transformer的一段式框架。对比二段式的Fast-RCNN(先寻找前景及调整边界框,再进行分类),OSFormer可以直接生成分类结果。
- 位置感知Transformer(LST),可以动态获取不同位置的实例线索,使得模型在有限数据集的情况下(大约3000张图像),快速收敛。
- 由粗到细的特征融合(CFF)。融合主干网络和LST的多尺度低级和高级特征来获得高分辨率的掩码特征。还嵌入反向额边缘注意力模块(REA)来突出伪装实例的边缘信息。
2. 模型结构
OSFormer主要包含四个基本部分:
- 用于提取特征的CNN backbone
- 位置感知Transformer(LST),利用全局特征和位置引导Query来生成实例感知向量
- 由粗到细的特征融合(CFF),融合多尺度高层和低层特征,产生高分辨率的掩码特征
- 用于预测最终分割掩码的动态伪装实例归一化(DCIN)

2.1 CNN backbone
给定一个输入图像 I ∈ R H × W × 3 I \in \mathbb R^{H \times W \times 3} I∈RH×W×3,使用ResNet-50作为backbone提取特征。为了减少计算量,将最后三个特征图( C 3 , C 4 , C 5 C_3,C_4,C_5 C3,C4,C5)直接展平并相互连接成具有256个通道的序列 X m X_m Xm,将 X m X_m Xm作为LST的输入。
将 C 2 C_2 C2特征图输入到CFF模块中,作为底层特征以捕获更多伪装实例线索。
2.2 位置感知Transformer(LST)
Transformer可以通过自注意力模块很好地提取全局特征,但是它需要大量的训练样本和计算成本支持。由于伪装实例分割的数据集有限,所以要在保证性能的同时,使模型更快地收敛。

- LST Encoder
与仅具有单一尺度低分辨率的特征输入的DETR不同,LST encoder的输入是多尺度特征 X m X_m Xm。
与Deformable DETR不同,在可变形自注意力层之后,为了更好的捕获局部信息并增强相邻token之间的相关性,将卷积操作引入前馈网络,称为混合前馈网络(BC-FFN)。
首先,根据 C i C_i Ci的形状将特征向量恢复到空间维度。然后,使用 3 × 3 3 \times 3 3×3卷积来学习归纳偏置。最后,用组归一化(GN)和GELU激活函数来形成前馈网络。再经过一个 3 × 3 3 \times 3 3×3卷积,将特征图展平为序列。
与SegFormer中的mix-FFN相比,BC-FFN不包含MLP操作和残差连接。
与CvT在每个stage开始时都加一个卷积token向量不同。OSFormer只在BC-FFN中引入两个卷积层。
假设输入特征表示为 X b X_b Xb,BC-FFN的数学表示如下:
X b ′ = C o n v 3 ( G E L U ( G N ( C o n v 3 ( X b ) ) ) ) X_b^{'}=Conv^{3}(GELU(GN(Conv^{3}(X_b)))) Xb′=Conv3(GELU(GN(Conv3(Xb))))
其中, C o n v 3 Conv^{3} Conv3为 3 × 3 3 \times 3 3×3卷积操作。
整个LST encoder的数学表示如下:
X e = B C − F F N ( L N ( ( X m + P m ) + M D A t t n ( X m + P m ) ) ) X_e = BC-FFN(LN((X_m+P_m)+MDAttn(X_m+P_m))) Xe=BC−FFN(LN((Xm+Pm)
OSFormer: 位置感知Transformer

OSFormer是一种新的位置感知的one-stage Transformer框架,用于伪装实例分割任务。它包括CNN backbone、位置感知Transformer (LST)、粗细特征融合(CFF)、动态伪装实例归一化(DCIN)等模块,能有效捕获全局特征和伪装实例的位置信息。
最低0.47元/天 解锁文章
6679





