在本文中,我们提出了co-scale conv-attention image transformer(CoaT),这是一种基于Transformer的图像分类器,配备了co-scale和conv-attention机制。首先,co-scale机制在各个尺度上保持Transformer编码器支路的完整性,同时允许在不同尺度上学习到的特征能相互有效通信;我们设计了一系列串行和并行块来实现co-scale机制。其次,我们通过在因子化注意模块中实现相对位置嵌入公式,并采用高效的卷积实现,设计了一种conv-attention机制。CoaT使图像转换器具有丰富的多尺度和上下文建模功能。在ImageNet上,与类似大小的卷积神经网络和图像/视觉Transformer相比,相对较小的CoaT模型可以获得更好的分类结果。CoaT主干在目标检测和实例分割方面的有效性也得到了验证,证明了其适用于下游计算机视觉任务。
Conv-Attentional Mechanism 对来自输入的图像embeding应用第一个卷积位置编码。然后我们将其输入ConvAtt,包括因子分解的注意力和卷积相对位置编码,所得到的特征图将送入后续的前馈网络中。
CoaT Serial Block:以一个降低的分辨率建模图像表示。在一个典型的串行块中,首先使用patch embeding层按一定比例对输入特征映射进行下采样,然后将简化后的特征映射平化为一系列图像token序列