Rethinking Local Perception in Lightweight Vision Transformer
重新思考轻量级视觉变换器中的局部感知
1.简介
- 提出一种新的轻量级视觉 Transformer 模型 CloFormer ,通过结合共享权重 和上下文感知权重 ,更好地捕获高频局部信息。
- 解决现有方法在高频局部信息处理上的不足,同时保持低频全局信息的建模能力。
CloFormer的核心思想是通过AttnConv模块和双分支结构,结合共享权重和上下文感知权重的优势,分别处理高频局部信息和低频全局新。
其中
- AttnConv使用深度可分离卷积提取局部特征,通过非线性变换生成上下文感知权重,增强局部特征。
- 双分支结构:
- 局部分支:使用AttenConv捕获高频局部信息。
- 全局分支:使用标准注意力机制,通过池化下采样K和V,减少计算复杂度,捕获低频全局信息。
- 融合策略:将局部分支和全局分支的输出在通道维度上拼接,并通过一个全连接层进行融合。
2. 网络结构

上图是该网络的整体结构,首先通过卷积Stem处理以获得标记(tokens),该stem由四个卷积层组成,步负分别为2、2、1、1,然后进过Clo和ConvFNN提取分层特征,最后通过GAP和FC深层预测结果,下面仔细来看每个结构:
2.1 ConvFFN
ConvFNN在GELU激活函数后添加了深度可分离卷积,使得ConvFNN可以聚合局部信息,这样下采样可以直接在ConvFNN内部完成,这样就不需要向ViT那样,引入PatchMerge模块,通过合并相邻的小图像快,逐步降低空间分辨率,同时增加通道维度,从而实现多尺度特征的提取。上图可见,ConvFNN分为两种类型:
- 阶段内ConvFNN:直接利用跳跃连接。
- 夸阶段ConvFNN:用于连接两个阶段。在这种类型的ConvFNN的跳跃连接中,DWconv和全连接层分别用于对输入进行下采样和升维操作。
2.2 Clok Block
CloBlock由一个局部分支和一个全局分支组成:
- 全局分支:如上图所示,在全局分支中首先对K和V进行下采样,然后对Q、K、V执行注意力过程, 提取低频的全局信息: X g l o b a l = A t t e n t i o n ( Q g , P o o l ( K g ) , P o o l ( V g ) ) X_{global}=Attention(Q_g,Pool(K_g),Pool(V_g)) Xglobal=Attention(Qg,Pool(Kg),

最低0.47元/天 解锁文章
597

被折叠的 条评论
为什么被折叠?



