CrossFormer:A Versatile Vision Transformer Hinging On Cross-Scale Attention

本文提出了一种新的Transformer架构,称为CrossFormer,旨在解决现有Transformer在处理不同尺度特征时的局限性。通过Cross-Scale Embedding Layer生成多尺度特征,结合LongShortDistance Attention模块,实现长短期注意,有效捕捉跨尺度交互。Dynamic Position Bias则通过学习位置偏差,适应不同尺寸的输入,提高模型的泛化能力。实验结果在ImageNet和COCO数据集上验证了CrossFormer的有效性。

研究背景

尽管Transformer在CV领域取得了不错的成就,但现有的Transformer存在一个限制其性能的缺陷,它们不能再不同尺度的feature上面构建interaction,而这种能力对于许多视觉任务来说是非常重要的。现有的Transformer没这种能力有以下两个原因:

  1. embeddings是从equal-size中生成的,所以它们只具有单一尺度的特征,并再后续层中其规模保持不变或统一变大,因此在同一层的embedding总是equal-scale的;
  2. 在self-attention中,相邻embedding经常被组合在一起并合并,然而,在这种情况下,即使embedding同时具有小尺度和大尺度特征,合并操作也会失去每个单独embedding的小尺度(细粒度)特征,这使跨尺度注意不可用。

解决思路

image.png

Cross-Scale Embedding Layer

CEL可以为每个stage生成input embedding,以第一个为例,它接收一幅图像作为输入,然后使用四个不同大小的卷积核对图像块进行采样。四个卷积核的步幅保持不变,在下图中我们可以看到,每四个对应的patch都有相同的中心,不同的尺度,这四个patch都会被投影并拼接成一个嵌入。对于跨尺度嵌入,一个问题是如何设置每个尺度的project dimension。由于相同维度下,大卷积比小卷积有更大的计算量,为例控制CEL的总计算量,对大卷积用较低的维度,小卷积用较高的维度,具体分配参考下图。这个方案节省了大量的计算量,但不明显影响模型的性能。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值