Rethinking Local Perception in Lightweight Vision Transformer阅读笔记

CloFormer:利用AttnConv增强局部感知的轻量级Transformer

原创

已于 2023-05-09 09:08:08 修改 · 2k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #笔记 #深度学习

于 2023-05-07 17:12:18 首次发布

CloFormer是一种新的轻量级视觉Transformer架构，设计用于移动端图像任务。它引入AttnConv，结合卷积的局部特征提取和注意力操作的上下文感知，以更好地处理高频局部信息。模型包含全局和局部两个分支，全局分支通过下采样K和V来减少计算量，局部分支使用AttnConv增强特征。AttnConv通过共享权重的局部聚合和上下文感知权重生成，提高了对局部信息的处理能力，同时保持了平移等变性。

前言

来自清华大学的团队于2023年4月份提出的一篇论文，主要介绍了一种轻量级vision transformer架构——CloFormer，用以处理移动端的图像任务。

作者从频域编码的角度认为，现有的轻量级视觉Transformer中，大多数方法都只关注设计稀疏注意力，来有效地处理低频全局信息，而使用相对简单的方法处理高频局部信息。很少有方法尝试结合共享和上下文感知权重的优势来处理高频局部信息。

模型引入了AttnConv，将普通卷积运算中的全局共享权重和注意力操作中的上下文感知权重结合起来，相比于Transformer能够更好地捕捉高频的局部信息，相比于传统卷积操作能够更好地处理图像中不同位置的关系。

1. 模型的特点

CloFormer采用两分支的结构。

局部分支中，AttnConv利用深度可分离卷积（depth-wise Convolution），其具有共享权重来提取局部特征。然后，利用上下文感知权重来增强局部特征。与以前通过局部自注意力生成上下文感知权重的方法不同，AttnConv使用门控机制生成上下文感知权重，引入了更强的非线性。

全局分支中，使用传统的注意力操作帮助模型捕捉低频的全局信息，但对K和V进行了下采样来减少参数量。

最后使用一种简单的方法来融合局部分支和全局分支的输出。

总结一下本文的创新点：

AttnConv
两分支结构
效果不错

我感兴趣的点：

结合卷积，增强Transformer的局部感知能力，以适应伪装视觉感知任务中局部细节信息的感知。
轻量级Transformer。

2. 模型结构

模型整体结构如下图所示。

在这里插入图片描述

CloFormer包含四个stage，每个stage由Clo Block和ConvFFN组成。

首先将输入图像通过conv stem得到token，stem由四个卷积层组成，每个卷积层的步距分别是2，2，1，1。然后通过四个stage提取分层特征。最后利用全局平均池化和全连接层来生成预测。

ConvFFN

用ConvFFN取代普通的FFN，将局部信息融入到FFN过程中。ConvFFN与普通的FFN之间的主要区别在于，ConvFFN在GeLU激活之后采用深度可分离卷积（Depth-wise Conv），这使ConvFFN能够聚合局部信息。由于使用了深度可分离卷积，ConvFFN可以直接下采样，而不需要引入PatchMerge模块。

CloFormer使用两种类型的ConvFFN。第一种是直接利用跳跃连接的In-Stage ConvFFN。另一种是两个stage的ConvFFN，在其跳跃连接中，分别利用DWConv和Full-Connected Layer对输入信息进行下采样和升维。

Clo block

Clo block由一个局部分支和一个全局分支组成。

如下图所示，在全局分支中，首先对K和V进行下采样，然后对Q、K、V执行传统注意力过程，以提取低频全局信息

$X_{global}=Attention(Q_g,Pool(K_g),Pool(V_g))$