【论文阅读】ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Bey

论文地址

1、version1背景
2、论文地址

摘要

Vision transformers 在各种计算机视觉任务中显示出巨大的潜力,因为它们具有使用自注意力机制对远程依赖进行建模的强大能力。然而,他们将图像视为视觉标记的一维序列,在建模局部视觉结构和处理尺度方差时缺乏内在的归纳偏差(IB),而是从具有较长训练计划的大规模训练数据中隐式学习.在本文中,我们提出了一种通过从卷积中探索内在 IB 的 Vision Transformer Advanced,即 ViTAE。
从技术上讲,ViTAE 有几个空间金字塔缩减模块 arXiv:2202.10108v1 [cs.CV] 2022 年 2 月 21 日使用具有不同扩张率的多个卷积对输入图像进行下采样并将其嵌入到具有丰富的多尺度上下文的标记中。通过这种方式,它获得了一个内在的尺度不变性 IB,并且可以学习各种尺度对象的鲁棒特征表示。此外,在每个转换器层中,ViTAE 都有一个与多头自注意力模块并行的卷积块,其特征被融合并馈入前馈网络。因此,它具有内在的局部性 IB,并且能够协同学习局部特征和全局依赖性。
所提出的两种细胞以各向同性和多阶段方式堆叠,以形成两个 ViTAE 模型系列,即香草 ViTAE 和 ViTAEv2。
在 ImageNet 数据集上的实验以及在 MS COCO、ADE20K 和 AP10K 数据集上的下游任务验证了我们的模型优于基线 transformer 模型和并发工程。
此外,我们将ViTAE模型扩展到644M参数,并获得最先进的分类性能,即ImageNet验证集的Top-1分类准确率为88.5%,ImageNet真实验证集的分类准确率为91.2%,而无需使用额外的私有数据。它表明,当模型尺寸变大时,引入的归纳偏置仍然有帮助。源代码和预训练模型将在代码中公开提供。

1 Introduction

Transformers [74,21] 已经成为 NLP 研究中的流行框架,因为它们通过自我注意机制对远程依赖进行建模的强大能力。变压器的这种成功和良好特性激发了许多后续工作,将它们应用于各种计算机视觉任务 [22,98,76]。其中,ViT [22] 是一项开创性的工作,它通过将图像嵌入到一系列视觉标记中并使用堆叠的变换器块对它们之间的全局依赖关系进行建模,从而为视觉应用纯变换器模型。尽管它在图像分类方面取得了令人鼓舞的性能,但它遇到了严重的数据匮乏问题,即需要大规模的训练数据和更长的训练计划才能获得更好的性能。一个重要的原因是 ViT 没有有效地利用视觉任务中的先验知识,并且在建模局部视觉线索(例如,边缘和角落)和处理各种尺度的对象(如卷积)时缺乏这种归纳偏差(IB)。或者,ViT 必须从大规模数据中隐式地学习这种 IB。
与视觉变换器不同,卷积神经网络 (CNN) 自然配备了局部性和尺度不变性的内在 IB,并且仍然作为视觉任务中的普遍骨干 [30,67,11,97]。 CNN 的成功激励我们探索在视觉转换器中引入内在 IB 的好处。我们首先分析 CNN 的上述两个 IB,即局部性和尺度不变性。计算相邻像素之间局部相关性的卷积擅长提取边缘和角点等局部特征。因此,CNN 可以在浅层 [93] 提供很好的低级特征,然后通过大量顺序卷积 [34,66,68] 逐渐将这些特征聚合成高级特征。此外,CNN 具有层次结构,可以在不同层提取多尺度特征 [66,39,30]。层内卷积还可以通过改变内核大小和膨胀率来学习不同尺度的特征 [29,67,11,45,97]。因此,尺度不变的特征表示可以通过层内或层间特征融合获得。然而,CNN 不太适合对远程依赖建模,而这是 Transformer 的主要优势。然后出现了一个有趣的问题:我们能否通过利用 CNN 的良好特性来改进视觉转换器?最近,DeiT [72] 探索了将知识从 CNN 提取到变压器以促进训练和提高性能的想法。然而,它需要一个现成的 CNN 模型作为老师,并且会产生额外的培训成本。
与 DeiT 不同的是,我们通过重新设计本文中的网络结构,将内在 IB 显式引入视觉转换器。当前的视觉转换器总是获得具有单尺度上下文的标记 [22,92, 76,49] 并学习适应来自数据的不同尺度的对象。例如,T2T-ViT [92] 通过以软分割方式巧妙地生成令牌来改进 ViT。具体来说,它使用一系列 Tokens-to-Token 转换层来聚合单尺度相邻上下文信息,并将图像逐步构建为 token。受 CNN 在处理尺度方差方面的成功启发,我们探索了变压器中的类似设计,即具有不同感受野的层内卷积 [67,89],以将多尺度上下文嵌入到标记中。这样的设计允许令牌携带对象在各种尺度上的有用特征,从而自然地具有内在的尺度不变性 IB,并明确地促进变换器更有效地从数据中学习尺度不变的特征。另一方面,低级局部特征是生成高级判别特征的基本要素。尽管 transformer 也可以从数据中学习浅层的这些特征,但它们在设计上并不像卷积那样熟练。最近,[86,43,25] 按顺序堆叠卷积层和注意力层,证明局部性是对全局依赖性的合理补偿。然而,这种串行结构在局部建模期间忽略了全局上下文(反之亦然)。

为了避免这种困境,我们遵循“分而治之”的思想,并提出并行建模局部性和远程依赖性,并融合特征以解决这两者。通过这种方式,我们使 transformers 能够更有效地学习每个块内的局部和远程特征。从技术上讲,我们提出了一种新的 Vision Transformers Advanced by Exploring Intrinsic Inductive Bias (Vi-TAE),它是两种基本类型的组合细胞,即还原细胞(RC)和正常细胞(NC)。 RCs 用于对输入图像进行下采样并将其嵌入到具有丰富的多尺度上下文的 token 中,而 NCs 旨在联合建模 token 序列中的局部性和全局依赖性。此外,这两种类型的细胞共享一个简单的基本结构,即并行注意模块和卷积层,后跟前馈网络(FFN)。值得注意的是,RC 有一个额外的金字塔缩减模块,具有不同扩张率的空洞卷积,以将多尺度上下文嵌入到标记中。按照 [92] 中的设置,我们堆叠三个缩减单元以将空间分辨率降低 1/16,并堆叠一系列 NC 以从数据中学习判别特征。
ViTAE 在数据效率和训练效率(见图 1)以及下游图像分类的分类准确性和泛化方面优于代表性视觉转换器任务。此外,我们进一步将 ViTAE 扩展到大型模型,并表明归纳偏差仍然有助于获得更好的性能,例如,具有 644M 参数的 ViTAE-H 在不使用额外私有数据的情况下在 ImageNet 上实现了 88.5% 的 Top-1 分类精度。超越图像分类,骨干网络应该很好地适应各种下游任务,如目标检测、语义分割和姿势估计。

为此,我们将 vanilla ViTAE 扩展到多阶段设计,即 ViTAEv2。具体来说,一个自然的选择是通过根据[76、49]中的策略重新排列缩减单元和正常单元来构建模型,以获得多尺度特征输出,即,在一个之后使用几个连续的 NC 单元每个阶段(特征解析)的 RC 模块,而不是仅在最后阶段使用一系列 NC。因此,来自不同阶段的多尺度特征可以用于那些不同的下游任务。

剩下的一个问题是 Transformer 中的普通注意力操作具有二次计算复杂度,需要大量内存占用和计算成本,特别是对于具有大分辨率的特征图。为了缓解这个问题,我们进一步探索了另一个归纳偏差,即在 RC 和 NC 模块中 [49] 中引入的局部窗口注意力。由于所提出的两个单元中的并行卷积分支可以对位置信息进行编码并实现窗口间信息交换,因此可以省略[49]中的相对位置编码和窗口移动机制等特殊设计。

因此,我们的 ViTAEv2 模型在各种视觉任务(包括图像分类、目标检测、语义分割和姿态估计)方面优于最先进的方法,同时保持快速的推理速度和合理的内存占用。

贡献这项研究是三方面的。

• 首先,我们探索了变压器中两种类型的固有 IB,即尺度不变性和局部性,并通过基于包含上述两个 IB 的两个新的归约和正常单元设计一个名为 ViTAE 的新变压器架构来证明这一想法的有效性。 ViTAE 在分类准确性、数据效率、训练效率和下游视觉任务的泛化方面优于代表性视觉转换器。
• 其次,我们将我们的 ViTAE 模型扩展到 644M 参数,并在不使用额外私有数据的情况下在 ImageNet 上获得 88.5% 的 Top-1 分类精度,这优于最先进的 Swin Transformer,证明引入的归纳当模型尺寸变大时,偏差仍然有帮助。
• 第三,我们将 vanilla ViTAE 扩展到多阶段设计,即 ViTAEv2。它有效地学习不同阶段的多尺度特征,同时为大尺寸输入图像保持快速的推理速度和合理的内存占用。

对流行基准的实验表明,它优于各种下游视觉任务的最先进方法,包括图像分类、对象检测、语义分割和姿态估计。本文的以下内容组织如下。
第 2 节描述了我们论文的相关工作。
然后,我们在第 3 节中详细介绍了两个基本单元、香草 ViTAE 模型、ViTAE 的缩放策略以及 ViTAEv2 的多阶段设计。
接下来,第 4 节介绍了广泛的实验结果和分析。
最后,我们在第 5 节总结了我们的论文,并讨论了潜在的应用和未来的研究方向。

2 相关工作

2.1 CNNs with intrinsic inductive bias

CNNs [39,93,30] 探索了几种具有特殊设计操作的归纳偏差,并在图像分类、目标检测和语义分割等视觉任务中取得了一系列突破。化。例如,根据局部像素更可能在图像中相关的事实 [42],CNN 中的卷积运算从内核大小 [41] 确定的感受野内的相邻像素中提取特征。通过堆叠卷积运算,CNN 自然地在建模局部性时具有归纳偏差。除了局部性,视觉任务中另一个关键的归纳偏差是尺度不变性,其中需要多尺度特征来表示不同位置的对象。有效扩展 [52,88]。例如,为了有效地学习大对象的特征,需要通过使用大卷积核 [88、89] 或更深层次结构中的一系列卷积层来获得大感受野 [30、34、66、68]。然而,这样的操作可能会忽略小物体的特征。为了有效地为不同尺度的对象构建多尺度特征表示,已经探索了各种图像金字塔技术 [11, 1, 55, 6, 40,19],其中分别从不同分辨率的图像金字塔中提取特征[44, 11, 53, 62, 35, 4],无论是手工制作的方式还是学习的方式。因此,来自小尺度图像的特征主要编码大物体,而来自大尺度图像的特征对小物体的反应更多。然后,融合从不同分辨率提取的特征以形成尺度不变特征,即层间融合。另一种获得尺度不变特征的方法是以并行方式使用具有不同感受野的多个卷积来提取和聚合多尺度上下文,即,层内融合[97, 68, 67, 67, 69]。层间或层内融合都赋予CNN尺度不变性感应偏置。它有助于提高它们在不同尺度上识别物体的性能。然而,目前尚不清楚这些电感双酶是否可以帮助可视变压器实现更好的性能。本文探讨了在视觉变压器中引入两种类型的归纳偏置的可能性,即通过在视觉变压器中引入卷积的局部性和尺度不变性,通过使用具有不同膨胀速率的多个卷积将多尺度连续编码到每个视觉令牌中,遵循层内融合的惯例.

2.2 具有感应偏置的视觉变压器

ViT [22]是将纯变压器应用于视觉任务并实现 有希望的再侮辱。它将图像视为一维序列,将它们嵌入到几个令牌中,然后通过堆叠的变压器块处理它们以获得最终预测。然而,由于ViT只是将图像视为一维序列,因此在对局部视觉结构进行建模时缺乏归纳偏差,因此它确实从大量数据中隐式学习IB。在结构中电感偏差较少的模型中也可以观察到类似的现象[71,23,31]。为了缓解数据饥渴的问题,以下工作明确地将归纳偏置引入视觉转换器,例如,利用CNN的IB来促进视觉转换器的培训,其培训数据较少或培训计划更短。对于考试,DeiT [72] 建议在训练期间通过额外的蒸馏令牌将预训练的 CNN 的知识提取到转换器,以模仿 CNN 的行为。但是,它需要一个现成的CNN模型作为教师,从而引入了额外的计算成本。最近,一些作品试图将CNN的内在IB明确引入视觉转换器[26,58,25,43,18,86,80,91,9,49]。例如,[43, 25, 80, 17] 按顺序堆叠卷积和注意力层,从而产生序列结构并相应地对局部性和全局未决性进行建模。[76] 设计顺序多级结构,而 [49] 在局部 win- dows 中应用注意力。但是,这些序列结构可能会在局部性建模期间忽略全局上下文(反之亦然)。[77] 以大量计算为代价建立跨不同尺度的连接。为了联合建模全局和局部环境,Conformer[58]和MobileForformer [13]采用了模型并行结构,由并行的单个卷积和变压器分支以及两个分支之间的复杂桥接连接组成。与它们不同的是,我们遵循“分而治之”的思想,并提出通过每个变压器层内的平行结构同时对局部性和全局性进行建模。通过这种方式,卷积和注意力模块被设计为在变压器块内相互补充,这更有利于模型学习更好的分类和密集预测任务的特征.

2.3 自监督学习和模型缩放

正如以前的研究所证明的那样,放大模型自然是少镜头的学习者,无论在语言上都有利于获得更好的性能, 图像或跨模态域[21,94,60]。最近,人们已经做出了许多努力来扩展视觉模型,例如BiT [36]和EfficientNet [70]通过使用更广泛和更深入的网络将CNN模型扩展到数百万个参数,并在许多视觉任务上获得卓越的性能。但是,他们需要使用更大规模的私有数据(即JFT300M)训练扩展模型[36]。在训练放大的视觉转换器模型以获得更好的性能时,可以观察到类似的现象[22,94]。然而,收集如此大量的标记数据来训练放大模型并不容易。另一方面,自我监督学习可以帮助使用没有标签的数据训练放大模型。例如,CLIP [60]采用从互联网捕获的配对文本和图像数据,并利用文本和图像之间的一致性来训练大型转换器模型,该模型在图像和文本生成任务上获得了良好的性能。[47] 采用掩蔽语言建模(MLM)作为借口任务,并从输入数据中生成监督信号。具体来说,他们采用蒙面的句子,用几个单词覆盖面具,并在掩蔽之前用句子中的单词预测蒙面的单词作为监督。通过这种方式,这些模型不需要为训练数据添加额外的标签,并在翻译、情感分析等方面实现卓越的性能。受语言中MLM任务卓越性能的启发,最近在视觉任务中探索了掩蔽图像建模(MIM)任务。例如,BEiT [3] 将图像标记为视觉标记,并使用逐块方式随机屏蔽一些标记。视觉转换器模型必须预测这些屏蔽令牌的原始令牌。通过这种方式,BEiT使用公开可用的ImageNet-22K数据集获得了卓越的分类和密集预测性能[20]。MAE [27] 简化了分词器的要求,并简单地将图像像素视为重建的 tar- 获取。仅使用 ImageNet-1K 训练数据,MAE 就获得了令人印象深刻的性能。目前还未充分探索视觉变压器引入的归纳偏差可以扩大,例如,在自我监督的环境中。此外,归纳偏差是否仍能帮助这些放大的模型获得更好的性能仍不清楚。在本文中,我们试图通过扩大 Vi-TAE 模型并以自我监督的方式对其进行训练来回答这个问题。实验结果证实了在按比例放大的视觉转换器中引入感应偏置的价值。

2.4 与之前版本相比

本文通过引入三大改进。
1.我们将ViTAE模型扩展到不同的模型尺寸,包括ViTAE-B、ViTAE-L和ViTAE H。借助于电感偏置具有644M参数的ViTAE-H模型获得最先进的分类性能,即88.5%ImageNet验证的分类精度排名第一集和最好的91.2%Top-1分类精度在ImageNet真实验证集上,不使用额外的私人数据。它表明,当模型尺寸变为大的我们还展示了优秀的少数镜头学习放大ViTAE模型的能力。
2.我们将香草ViTAE扩展到多阶段设计和设计ViTAEv2 RC和NC模块也通过探索另一个来自局部窗口注意力的感应性偏差。ViTAEv2在图像分类任务和下游视觉方面优于最先进的模型任务,包括对象检测、语义分割和姿态估计。
3.我们还提供了更多关于模块设计、推断的消融研究和实验分析速度、内存占用以及与最新作品。

3 Methodology

3.1 Revisit vision transformer

我们首先在这一部分对vision transformer进行简要回顾。为了使变换器适应视觉任务,ViT [22] 首先将图像 x ∈ RH ×W ×C 分成几个不重叠的块,块大小为 p,并将它们嵌入到视觉标记中(即 xt ∈ RN ×D)以 patch-to-token 的方式,其中 H、W、C 分别表示输入图像的高度、宽度和通道维度,N 和 D 分别表示令牌编号和令牌维度,N = (H × W)/p2。然后,在以元素方式向所有标记添加位置嵌入之前,将具有相同维度 D 的额外可学习嵌入(视为类标记)连接到视觉标记。在本文的以下部分中,我们使用 xt 来表示所有标记,除非另有说明,否则为简单起见,N 是连接后标记的总数。这些标记被送入几个连续的转换器层以进行最终预测。每个转换器层由两部分组成,即多头自注意力模块(MHSA)和前馈网络(FFN)。

MHSA 通过对每个转换器使用不同的投影矩阵来扩展单头自注意力(SHSA)头。换句话说,MHSA是在SHSA重复h次后得到的,其中h是磁头数。具体来说,对于 SHSA,首先使用三个不同的投影矩阵将输入标记 xt 投影到查询 (Q)、键 (K) 和值 (V),即 Q,K,V = xtWQ,xtQK,xtQV,其中WQ/K/V ∈ RD× Dh 分别表示查询/键/值的投影矩阵。然后self-attention的操作计算为:Attention(Q,K,V)=softmax( √其中每个head的输出大小为RN×Dh。然后将所有h个head的特征沿着channel维度进行拼接并制定 MHSA 模块的输出。

FFN 位于 MHSA 模块之上,并且相同且分别应用于每个标记。它由两个线性变换组成,中间有一个激活函数。
此外,层归一化和在MHSA之前和之外添加了一个shortcut 和FFN。
在这里插入图片描述

3.2 ViTAE

ViTAE 的各向同性设计旨在将 CNN 中的固有 IB 引入视觉转换器。
如图 2 所示,ViTAE 由两种类型的单元组成,即, RCs 和 NCs。RCs 负责降采样,同时将多尺度上下文和局部信息嵌入到 token 中,NCs 用于进一步对 token 中的局部性和远程依赖性进行建模。
Taken an image x ∈ RH ×W ×C作为输入,三个 RC 用于逐渐 d ownsample x 的总数为 16×,分别乘以 4×、2× 和 2×。因此,下采样后 RC 的输出标记的大小为 [H/16,W/16,D],其中 D 是标记维度(在我们的实验中为 64)。然后 RC 的输出标记被展平为 R(HW/256)×D,与类标记(图中红色)连接,并通过正弦波位置编码添加。接下来,将令牌馈送到以下 NC,这些 NC 保持令牌的长度。最后,使用来自最后一个 NC 的类标记上的线性分类层获得预测概率。

3.2.1 Reduction cell

而不是直接将图像分割和展平为基于线性图像块嵌入的视觉标记层,我们设计了简化单元来嵌入多尺度将上下文和局部信息转化为视觉标记,引入固有的尺度不变性和局部IB从卷积到ViTAE。

从技术上讲,RC有两个负责建模局部性和长期依赖性,然后是功能的FFN转型我们表示第i个的输入特征钢筋混凝土为fi∈ RHi×Wi×Di第一RC的输入是image x.

在全局依赖分支中,fi是第一个输入金字塔缩减模块(PRM)以提取多尺度上下文。
在这里插入图片描述

(2)其中Convij(·)表示第i个PRM(即P RMi(·))。它使用膨胀率sij从预定义的膨胀率集合Si对应至第i个RC。注意,我们使用步幅卷积来通过比率ri减少特征的空间维度从预定义的减速比集合R卷积后沿信道连接尺寸,即fms i∈ R(Wi/ri)×(Hi/ri)x(|Si|Di),其中|Si|表示集合Si中的膨胀率的数量。

然后,MHSA模块对f msi进行处理,以对长程相关性进行建模,即
在这里插入图片描述

(3)其中Img2Seq(·)是一个简单的重塑操作,用于将特征图展平为1D序列。通过这种方式,fgi将多尺度上下文嵌入到每个令牌中。

注意,传统的MHSA以相同的规模单独参与每个代币,因此缺乏对不同规模的代币之间的关系进行建模的能力。相比之下,简化单元中引入的多尺度卷积可以
(1)通过查看更大的字段来减轻合并令牌时的信息损失,以及
(2)将多尺度信息嵌入令牌中,以帮助后续MHSA基于不同尺度的特征来建模更好的全局依赖性。

此外,我们使用并行卷积模块(PCM)将本地上下文嵌入令牌中,令牌与fgi融合如下:
在这里插入图片描述

(4) 这里,P CMi(·)表示第i个RC的PCM,它由Img2Seq(·)运算和三个堆叠的卷积层组成,BN层和激活层介于其间。值得注意的是卷积分支具有相同的空间下采样通过使用步幅卷积,将比率作为PRM。通过这种方式,令牌特征可以携带局部和多尺度上下文,这意味着RC通过设计获得了局部IB和尺度不变性IB。然后,融合的令牌由FFN处理,并重新成形为特征图,即
在这里插入图片描述

(5)其中Seq2Im(·)是将令牌序列重新成形回特征图的简单重塑操作。F F Ni(·)表示第i个RC中的FFN。在我们的ViTAE中,依次堆叠三个RC,以分别将输入图像的空间维度逐渐减小4×、2×和2×。由于第一个RC以高分辨率处理图像,我们采用Performer[14]来减少计算负担和内存成本。

3.2.2正常细胞

在这里插入图片描述

如图2右下部分所示,NC共享与RC相似的结构,除了不存在它可以提供丰富的空间信息通过聚合多尺度信息和补偿
下采样导致的空间信息丢失在RC中。给定包含多尺度的特征信息,预计网络中心将专注于建模特性之间的长距离和短距离依赖关系。
此外,在NC中省略PRM模块也有助于由于数量众多,降低了计算成本堆叠模型中NC的数量。因此,我们不使用NC中的PRM。从第三RC给出f3,我们首先将它与类标记tcls连接起来,然后将其添加到位置编码中,以获得以下NC的kens t输入。我们忽略的下标因为所有NC都具有相同的架构不同的可学习权重。tcls是随机初始化的在训练开始时,并在推断过程中固定。与RC类似,代币被送入MHSA模块,即tg=MHSA(t)。
在这里插入图片描述

同时,它们被重新成形为2D特征图并被馈送到PCM中。,tl=Img2Seq(P CM(Seq2Img(t)))。
在这里插入图片描述

注意,类令牌在PCM中被丢弃,因为它没有空间与其他视觉标记的连接。
进一步减少NC中的参数,我们在PCM。MHSA和PCM的功能如下通过元素和进行融合,即tlg=tg+tl
在这里插入图片描述

最后tlg被馈送到FFN,以获得NC,即tnc=F F N(tlg)+tlg。
在这里插入图片描述

与ViT[22]类似,我们对生成的类令牌应用层规范化最后一个NC并将其送入分类头得到最终的分类结果。

3.3通过自我监督学习扩大ViTAE

除了堆放拟建的钢筋混凝土和钢筋混凝土具有4M、6M、13M和24M参数,我们还放大ViTAE以评估在具有大模型尺寸的视觉变换器中引入感应偏置的益处。

具体来说,我们遵循ViT[22]中的设置以扩大拟议的ViTAE模型,即我们将图像嵌入到可视标记中使用堆叠的NC处理它们以提取特征。这个堆叠策略与策略完全相同在ViT[22]中采用,我们使用12个NC和768嵌入维度以构建ViTAE基础模型(即具有89M参数的ViTAE-B),24个NC使用1024个嵌入维度来构建Vi-TAE大模型(即具有311M个参数的Vi-TAE-L),和36个具有1248嵌入维度的正常细胞构建ViTAE巨大模型(即ViTAE-H具有644M参数)。正常电池堆叠按顺序。

然而,放大模型很容易如果仅使用ImageNet-1K数据集进行训练,则过度拟合在完全监督的培训环境下。自我监督相反,学习[27]可以消除这个问题并促进按比例放大模型的训练。在这个论文中,我们采用MAE[27]来训练放大的ViTAE由于其简单和高效。

明确地我们首先将输入图像嵌入令牌中,然后随机移除75%的令牌。移除到ken中填充有随机初始化的掩码令牌。之后,剩余的视觉标记由用于特征提取的ViTAE模型。提取的然后连接特征和掩码标记馈入解码器网络以预测属于掩蔽区域的像素。平均值预测和屏蔽之间的平方误差在训练期间像素被最小化。
然而,由于编码器仅处理视觉令牌,即移除后剩余的令牌图像的内置位置属性已损坏在视觉标记中。调整提议的ViTAE对于自监督任务,我们简单地使用内核大小为1×1而不是3×3的卷积来表示用于预训练的ViTAE模型。这个简单的修改帮助我们在网络的预训练和微调阶段,帮助卷积分支以学习有意义的初始化,如[95]所示。在预训练阶段之后,我们将卷积的核从1×1转换为3×3通过零填充来恢复完整的ViTAE模型,在ImageNet-1k训练中进一步微调50个时期的数据。受[3]的启发,我们使用分层在微调过程中学习率衰减,以适应特定视觉任务的预训练模型

3.4 ViTAE的多级设计

除了分类,其他下游任务,包括对象检测、语义分割和姿态估计也是一般主干网应该适应的非常重要的任务。

这些下游任务通常需要从以不同的尺度处理这些对象。为此,我们将vanilla ViTAE模型扩展到多阶段设计,即ViTAE-v2
ViTAE-v2的设计可以重新构建模型通过重新组织RC和NC。如图3所示,ViTAE-v2有四个阶段,其中四个对应的RC用于将特征逐渐降采样4×,分别为2×、2×和2×。在每个阶段,许多Ni正常细胞在第i个RC之后依次堆叠。请注意,一系列NC仅在各向同性设计中最粗糙的阶段使用。正常细胞的数量,即Ni,控制模型的深度和大小。通过这样做,ViTAE-v2可以从不同阶段提取特征金字塔,这些特征金字塔可以被专门为各种下游任务设计的解码器使用。
在这里插入图片描述

剩下的一个问题是,变压器中的普通注意力操作具有二次计算复杂性,因此需要占用大量内存和计算成本,特别是对于具有大分辨率。与香草ViTAE设计中的快速分辨率还原不同,我们采用了多级设计中的分辨率降低策略,e、 g.第一阶段特征图的分辨率仅为原始图像大小的1/4更高的计算成本,尤其是当图像下游任务具有高分辨率。减轻在这个问题上,我们进一步探讨了另一种感应偏置,i、 e.[49]中介绍的本地窗口关注RC和NC模块。

具体来说,窗口关注将整个特征图拆分为多个不重叠的局部窗口,并进行多头自我关注在每个窗口中,即同一窗口共享相同的键和值集。自从提出的两种方法中的并行卷积分支单元可以编码位置信息并实现窗口间信息交换可以省略[49]中的相对位置编码和窗口移位机制。我们根据经验发现用局部窗口关注取代全部关注。在早期阶段,可以在假定的成本和性能之间实现良好的权衡。因此,我们只使用RC和NC模块的本地窗口关注前两个阶段。因此,我们的ViTAEv2模型可以为各种视觉任务提供优异的性能,包括图像分类、对象检测、semantic分割和姿态估计,同时保持快速的推理速度和合理的内存占用。

3.5型号详情

在本文中,我们提出了ViTAE并进一步扩展了它到如上所述的多级版本ViTAEv2。我们设计了几个ViTAE和ViTAEv2变体
与其他模型进行比较的实验类似型号。总结了它们的细节表1中的“膨胀”列决定了膨胀每个RC中的速率集合S。“RC”中的两行和“NC”列表示RC的特定配置和NC,其中“P”、“W”、“F”分别指Per former[14]、局部窗口注意力和香草味十足
分别注意第二个行表示相应的注意模块。“排列”列表示每个阶段的NC数量,而“嵌入”表示每个阶段的令牌嵌入大小。具体来说,第一个RC为7×7,步长为4,扩张率为S1=[1,2,3,4]。在以下两个RC(或三个RC对于ViTAEv2),卷积核大小为3×3步幅为2,扩张率为S2=[1,2,3],以及S3=[1,2](对于ViTAEv2,S4=[1,1])。
由于令牌的数量在稍后阶段减少,不需要使用大的内核和膨胀率在后期阶段。RC和NC中的PCM包括三个卷积层,核大小为3×。

总结

在本文中,我们重新设计了变压器模块,提出了两个基本单元(还原单元和普通单元),将两种类型的固有电感偏置(IB)纳入变压器中,即局部性和尺度不变性,从而形成了一种简单而有效的各向同性和多级视觉变压器架构。大量实验表明,ViTAE在分类精度、数据效率和下游任务的泛化能力等各个方面都优于代表性视觉变压器。当缩放到大型模型时,归纳偏置仍然有助于提高视觉变压器的性能。在未来的工作中,我们可以探索其他类型的IB,以进一步提高其绩效。我们希望这项研究将为以下将内在IB引入视觉转换器以及了解内在和习得IB的影响的研究提供有价值的见解。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值