OSFormer阅读笔记

OSFormer: 位置感知Transformer
OSFormer是一种新的位置感知的one-stage Transformer框架,用于伪装实例分割任务。它包括CNN backbone、位置感知Transformer (LST)、粗细特征融合(CFF)、动态伪装实例归一化(DCIN)等模块,能有效捕获全局特征和伪装实例的位置信息。

前言

OSFormer是华科发表在ECCV 2022的一篇伪装实例分割的文章,提出了一种新的位置感知的一段式(one-stage)Transformer框架,采用了一种高效的位置感知Transformer来捕获全局特征,并动态回归伪装实例的位置和主干。OSFormer还进一步设计了多尺度特征融合,来整合从粗到细的多尺度特征,从而突出伪装实例的边缘,产生全局特征。

大量实验结果表明,OSFormer效果优于其他一直模型。此外,OSFormer只需要大约3000张图像进行训练,并且能快速收敛。因此,可以很容易的扩展到其他训练样本较小的下游视觉任务。

1. 模型的特点

OSFormer主要有以下三个特点:

  • 基于Transformer的一段式框架。对比二段式的Fast-RCNN(先寻找前景及调整边界框,再进行分类),OSFormer可以直接生成分类结果。
  • 位置感知Transformer(LST),可以动态获取不同位置的实例线索,使得模型在有限数据集的情况下(大约3000张图像),快速收敛。
  • 由粗到细的特征融合(CFF)。融合主干网络和LST的多尺度低级和高级特征来获得高分辨率的掩码特征。还嵌入反向额边缘注意力模块(REA)来突出伪装实例的边缘信息。

2. 模型结构

OSFormer主要包含四个基本部分:

  • 用于提取特征的CNN backbone
  • 位置感知Transformer(LST),利用全局特征和位置引导Query来生成实例感知向量
  • 由粗到细的特征融合(CFF),融合多尺度高层和低层特征,产生高分辨率的掩码特征
  • 用于预测最终分割掩码的动态伪装实例归一化(DCIN)

在这里插入图片描述

2.1 CNN backbone

给定一个输入图像 I ∈ R H × W × 3 I \in \mathbb R^{H \times W \times 3} IRH×W×3,使用ResNet-50作为backbone提取特征。为了减少计算量,将最后三个特征图( C 3 , C 4 , C 5 C_3,C_4,C_5 C3,C4,C5)直接展平并相互连接成具有256个通道的序列 X m X_m Xm,将 X m X_m Xm作为LST的输入。

C 2 C_2 C2特征图输入到CFF模块中,作为底层特征以捕获更多伪装实例线索。

2.2 位置感知Transformer(LST)

Transformer可以通过自注意力模块很好地提取全局特征,但是它需要大量的训练样本和计算成本支持。由于伪装实例分割的数据集有限,所以要在保证性能的同时,使模型更快地收敛。
在这里插入图片描述

  • LST Encoder

与仅具有单一尺度低分辨率的特征输入的DETR不同,LST encoder的输入是多尺度特征 X m X_m Xm
与Deformable DETR不同,在可变形自注意力层之后,为了更好的捕获局部信息并增强相邻token之间的相关性,将卷积操作引入前馈网络,称为混合前馈网络(BC-FFN)。
首先,根据 C i C_i Ci的形状将特征向量恢复到空间维度。然后,使用 3 × 3 3 \times 3 3×3卷积来学习归纳偏置。最后,用组归一化(GN)和GELU激活函数来形成前馈网络。再经过一个 3 × 3 3 \times 3 3×3卷积,将特征图展平为序列。
与SegFormer中的mix-FFN相比,BC-FFN不包含MLP操作和残差连接。
与CvT在每个stage开始时都加一个卷积token向量不同。OSFormer只在BC-FFN中引入两个卷积层。
假设输入特征表示为 X b X_b Xb,BC-FFN的数学表示如下:
X b ′ = C o n v 3 ( G E L U ( G N ( C o n v 3 ( X b ) ) ) ) X_b^{'}=Conv^{3}(GELU(GN(Conv^{3}(X_b)))) Xb=Conv3(GELU(GN(Conv3(Xb))))
其中, C o n v 3 Conv^{3} Conv3 3 × 3 3 \times 3 3×3卷积操作。

整个LST encoder的数学表示如下:
X e = B C − F F N ( L N ( ( X m + P m ) + M D A t t n ( X m + P m ) ) ) X_e = BC-FFN(LN((X_m+P_m)+MDAttn(X_m+P_m))) Xe=BCFFN(LN((Xm+Pm)

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值