CrossFormer：A Versatile Vision Transformer Hinging On Cross-Scale Attention

最新推荐文章于 2025-06-17 07:30:00 发布

原创

最新推荐文章于 2025-06-17 07:30:00 发布 · 3.6k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #深度学习 #计算机视觉

本文提出了一种新的Transformer架构，称为CrossFormer，旨在解决现有Transformer在处理不同尺度特征时的局限性。通过Cross-Scale Embedding Layer生成多尺度特征，结合LongShortDistance Attention模块，实现长短期注意，有效捕捉跨尺度交互。Dynamic Position Bias则通过学习位置偏差，适应不同尺寸的输入，提高模型的泛化能力。实验结果在ImageNet和COCO数据集上验证了CrossFormer的有效性。

研究背景

尽管Transformer在CV领域取得了不错的成就，但现有的Transformer存在一个限制其性能的缺陷，它们不能再不同尺度的feature上面构建interaction，而这种能力对于许多视觉任务来说是非常重要的。现有的Transformer没这种能力有以下两个原因：

embeddings是从equal-size中生成的，所以它们只具有单一尺度的特征，并再后续层中其规模保持不变或统一变大，因此在同一层的embedding总是equal-scale的；
在self-attention中，相邻embedding经常被组合在一起并合并，然而，在这种情况下，即使embedding同时具有小尺度和大尺度特征，合并操作也会失去每个单独embedding的小尺度(细粒度)特征，这使跨尺度注意不可用。

解决思路

Cross-Scale Embedding Layer

CEL可以为每个stage生成input embedding，以第一个为例，它接收一幅图像作为输入，然后使用四个不同大小的卷积核对图像块进行采样。四个卷积核的步幅保持不变，在下图中我们可以看到，每四个对应的patch都有相同的中心，不同的尺度，这四个patch都会被投影并拼接成一个嵌入。对于跨尺度嵌入，一个问题是如何设置每个尺度的project dimension。由于相同维度下，大卷积比小卷积有更大的计算量，为例控制CEL的总计算量，对大卷积用较低的维度，小卷积用较高的维度，具体分配参考下图。这个方案节省了大量的计算量，但不明显影响模型的性能。

最低0.47元/天解锁文章