Vision Transformer在捕获浅层的局部特征时可能会受到高冗余的影响。
在神经网络的早期阶段获得高效且有效的全局上下文建模:
①从超像素的设计中汲取灵感,减少了后续处理中图像基元的数量,并将超级令牌引入到Vision Transformer中。
超像素(Superpixel)是图像处理中的一种概念,它指的是具有相似颜色、纹理等特征的相邻像素组成的小区域。这些小区域被视为一个整体,从而代替了传统的单个像素作为图像处理的基本单位。
图像基元指的是图像中具有显著特点的基本单元,是一个相对概括和模糊的概念。
常见的图像基元包括边缘、角点、直线段、圆、孔、椭圆以及其他兴趣点等,还包括这些基本单元的一些结合体。
②超级令牌试图提供视觉内容的语义上有意义的镶嵌,从而减少自注意力的令牌数量并保留全局建模。
超像素算法
传统的超像素算法:基于图的方法和基于聚类的方法
基于图的方法将图像像素视为图节点,并通过相邻像素之间的边缘连接来划分节点。
基于聚类的方法利用传统的聚类技术来构造超像素。例如不同特征表示上的 K-均值聚类。
超级令牌注意力(STA)机制
- 通过稀疏关联学习从视觉令牌中采样超级令牌
- 对超级令牌执行自注意力,最后将它们映射回原始令牌空间
基本介绍
Transformer主导着自然语言处理领域,并表现出通过自注意力捕获长程依赖关系的出色能力。
自注意力的计算复杂度与令牌数量成二次方,导致高分辨率视觉任务(例如物体检测和分割)的计算成本巨大。
ViT倾向于捕获具有高冗余的浅层局部特征。如图(b)所示,给定一个锚标记,浅层全局注意力集中在一些相邻的标记上(用红色填充),而忽略了大多数距离较远的标记。所有令牌之间的全局比较导致在捕获此类局部相关性时产生巨大的不必要的计算成本。
对于局部注意力,如图(c)所示,冗余减少了,但仍然存在于浅层中,其中只有少数附近的令牌获得高权重。
如图(d)所示,所提出的超级标记注意力即使在浅层也可以学习全局表示。
另一方面,利用浅层中的卷积,有效地减少了局部特征的计算冗余。
处理图像或序列数据时,尤其是当数据具有高度的局部相关性时,直接在整个数据集上进行计算可能会导致大量的计算冗余。通过使用卷积操作,Uniformer模型能够针对局部特征进行高效的计算,因为它只需要在局部区域内进行操作,而不是在整个数据集上进行。这样可以大大减少不必要的计算,提高模型的效率。
对于浅层,超像素在感知上将相似的像素组合在一起,从而减少后续处理的图像基元的数量。我们将超像素的思想从像素空间借用到令牌空间,并将超级令牌假设为视觉内容的紧凑表示。
STA(超级令牌注意力)机制
首先,我们应用 快速采样算法 通过学习令牌和超级令牌之间的稀疏关联来预测超级令牌
稀疏关联(Sparse Connectivity)指的是通过设置规模远小于图像规模的卷积核,让卷积核仅与部分图像单元产生交互,以探寻图像局部有意义的特征。
然后,我们在超级令牌空间中执行自注意力,以获取超级令牌之间的长距离依赖关系;与令牌空间中的自注意力相比,由于超级令牌的表示和计算效率,这种自注意力可以显着降低计算复杂度,同时学习全局上下文信息。
最后,我们利用第一步中学习到的关联将超级令牌映射回原始令牌空间。
STViT的整体架构
通用视觉主干(Super Token Vision Transformer)STViT 被设计为具有卷积层的分层ViT混合体。采用卷积层来补偿捕获局部特征的能力。在每个阶段,我们都使用一堆超级令牌转换器(STT)块来进行高效且有效的表示学习。