Rethinking Local Perception in Lightweight Vision Transformer

Rethinking Local Perception in Lightweight Vision Transformer
重新思考轻量级视觉变换器中的局部感知

1.简介

  • 提出一种新的轻量级视觉 Transformer 模型 CloFormer ,通过结合共享权重 和上下文感知权重 ,更好地捕获高频局部信息。
  • 解决现有方法在高频局部信息处理上的不足,同时保持低频全局信息的建模能力。

CloFormer的核心思想是通过AttnConv模块和双分支结构,结合共享权重和上下文感知权重的优势,分别处理高频局部信息和低频全局新。
其中

  • AttnConv使用深度可分离卷积提取局部特征,通过非线性变换生成上下文感知权重,增强局部特征。
  • 双分支结构
    • 局部分支:使用AttenConv捕获高频局部信息。
    • 全局分支:使用标准注意力机制,通过池化下采样K和V,减少计算复杂度,捕获低频全局信息。
    • 融合策略:将局部分支和全局分支的输出在通道维度上拼接,并通过一个全连接层进行融合。

2. 网络结构

请添加图片描述
上图是该网络的整体结构,首先通过卷积Stem处理以获得标记(tokens),该stem由四个卷积层组成,步负分别为2、2、1、1,然后进过Clo和ConvFNN提取分层特征,最后通过GAP和FC深层预测结果,下面仔细来看每个结构:

2.1 ConvFFN

ConvFNN在GELU激活函数后添加了深度可分离卷积,使得ConvFNN可以聚合局部信息,这样下采样可以直接在ConvFNN内部完成,这样就不需要向ViT那样,引入PatchMerge模块,通过合并相邻的小图像快,逐步降低空间分辨率,同时增加通道维度,从而实现多尺度特征的提取。上图可见,ConvFNN分为两种类型:

  • 阶段内ConvFNN:直接利用跳跃连接。
  • 夸阶段ConvFNN:用于连接两个阶段。在这种类型的ConvFNN的跳跃连接中,DWconv和全连接层分别用于对输入进行下采样和升维操作。

2.2 Clok Block

CloBlock由一个局部分支和一个全局分支组成:

  • 全局分支:如上图所示,在全局分支中首先对K和V进行下采样,然后对Q、K、V执行注意力过程, 提取低频的全局信息: X g l o b a l = A t t e n t i o n ( Q g , P o o l ( K g ) , P o o l ( V g ) ) X_{global}=Attention(Q_g,Pool(K_g),Pool(V_g)) Xglobal=Attention(Qg,Pool(Kg),
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值