研究背景
尽管Transformer在CV领域取得了不错的成就,但现有的Transformer存在一个限制其性能的缺陷,它们不能再不同尺度的feature上面构建interaction,而这种能力对于许多视觉任务来说是非常重要的。现有的Transformer没这种能力有以下两个原因:
- embeddings是从equal-size中生成的,所以它们只具有单一尺度的特征,并再后续层中其规模保持不变或统一变大,因此在同一层的embedding总是equal-scale的;
- 在self-attention中,相邻embedding经常被组合在一起并合并,然而,在这种情况下,即使embedding同时具有小尺度和大尺度特征,合并操作也会失去每个单独embedding的小尺度(细粒度)特征,这使跨尺度注意不可用。
解决思路

Cross-Scale Embedding Layer
CEL可以为每个stage生成input embedding,以第一个为例,它接收一幅图像作为输入,然后使用四个不同大小的卷积核对图像块进行采样。四个卷积核的步幅保持不变,在下图中我们可以看到,每四个对应的patch都有相同的中心,不同的尺度,这四个patch都会被投影并拼接成一个嵌入。对于跨尺度嵌入,一个问题是如何设置每个尺度的project dimension。由于相同维度下,大卷积比小卷积有更大的计算量,为例控制CEL的总计算量,对大卷积用较低的维度,小卷积用较高的维度,具体分配参考下图。这个方案节省了大量的计算量,但不明显影响模型的性能。

本文提出了一种新的Transformer架构,称为CrossFormer,旨在解决现有Transformer在处理不同尺度特征时的局限性。通过Cross-Scale Embedding Layer生成多尺度特征,结合LongShortDistance Attention模块,实现长短期注意,有效捕捉跨尺度交互。Dynamic Position Bias则通过学习位置偏差,适应不同尺寸的输入,提高模型的泛化能力。实验结果在ImageNet和COCO数据集上验证了CrossFormer的有效性。
最低0.47元/天 解锁文章
4268

被折叠的 条评论
为什么被折叠?



