OSFormer阅读笔记

原创

已于 2022-11-28 20:51:49 修改 · 1.4k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

于 2022-11-21 17:04:10 首次发布

OSFormer是一种新的位置感知的one-stage Transformer框架，用于伪装实例分割任务。它包括CNN backbone、位置感知Transformer (LST)、粗细特征融合(CFF)、动态伪装实例归一化(DCIN)等模块，能有效捕获全局特征和伪装实例的位置信息。

前言

OSFormer是华科发表在ECCV 2022的一篇伪装实例分割的文章，提出了一种新的位置感知的一段式（one-stage）Transformer框架，采用了一种高效的位置感知Transformer来捕获全局特征，并动态回归伪装实例的位置和主干。OSFormer还进一步设计了多尺度特征融合，来整合从粗到细的多尺度特征，从而突出伪装实例的边缘，产生全局特征。

大量实验结果表明，OSFormer效果优于其他一直模型。此外，OSFormer只需要大约3000张图像进行训练，并且能快速收敛。因此，可以很容易的扩展到其他训练样本较小的下游视觉任务。

1. 模型的特点

OSFormer主要有以下三个特点：

基于Transformer的一段式框架。对比二段式的Fast-RCNN（先寻找前景及调整边界框，再进行分类），OSFormer可以直接生成分类结果。
位置感知Transformer（LST），可以动态获取不同位置的实例线索，使得模型在有限数据集的情况下（大约3000张图像），快速收敛。
由粗到细的特征融合（CFF）。融合主干网络和LST的多尺度低级和高级特征来获得高分辨率的掩码特征。还嵌入反向额边缘注意力模块（REA）来突出伪装实例的边缘信息。

2. 模型结构

OSFormer主要包含四个基本部分：

用于提取特征的CNN backbone
位置感知Transformer（LST），利用全局特征和位置引导Query来生成实例感知向量
由粗到细的特征融合（CFF），融合多尺度高层和低层特征，产生高分辨率的掩码特征
用于预测最终分割掩码的动态伪装实例归一化（DCIN）

在这里插入图片描述

2.1 CNN backbone

给定一个输入图像 $\in \mathbb R^{H \times W \times 3}$ ，使用ResNet-50作为backbone提取特征。为了减少计算量，将最后三个特征图（ $C_3,C_4,C_5$ ）直接展平并相互连接成具有256个通道的序列 $X_m$ ，将 $X_m$ 作为LST的输入。

将 $C_2$ 特征图输入到CFF模块中，作为底层特征以捕获更多伪装实例线索。

2.2 位置感知Transformer（LST）

Transformer可以通过自注意力模块很好地提取全局特征，但是它需要大量的训练样本和计算成本支持。由于伪装实例分割的数据集有限，所以要在保证性能的同时，使模型更快地收敛。
在这里插入图片描述

LST Encoder

与仅具有单一尺度低分辨率的特征输入的DETR不同，LST encoder的输入是多尺度特征 $X_m$ 。
与Deformable DETR不同，在可变形自注意力层之后，为了更好的捕获局部信息并增强相邻token之间的相关性，将卷积操作引入前馈网络，称为混合前馈网络（BC-FFN）。
首先，根据 $C_i$ 的形状将特征向量恢复到空间维度。然后，使用 $\times 3$ 卷积来学习归纳偏置。最后，用组归一化（GN）和GELU激活函数来形成前馈网络。再经过一个 $\times 3$ 卷积，将特征图展平为序列。
与SegFormer中的mix-FFN相比，BC-FFN不包含MLP操作和残差连接。
与CvT在每个stage开始时都加一个卷积token向量不同。OSFormer只在BC-FFN中引入两个卷积层。
假设输入特征表示为 $X_b$ ，BC-FFN的数学表示如下：
$X_b^{'}=Conv^{3}(GELU(GN(Conv^{3}(X_b))))$
其中， $Conv^{3}$ 为 $\times 3$ 卷积操作。