动机
-
transformer是一种有效的工具。
transformer最初是为机器翻译而引入的,后来成为NLP的主干。由于语言的非局部性、关系自然性,这种长时的、自注意力的行为使transformer成为一种有效的工具。
-
最近关于视觉transformer(ViT)的工作极大地推动了这一前沿。
-
ViT纯粹是基于transformer的,而不是与非退化(即non-1×1)的卷积交织在一起的。本论文认为简单地比较自注意力和“卷积”是不精确的。根据定义,卷积有几个性质:权重共享,局部连接,平移同变性。自注意力块中全部投影层具有卷积的所有这些性质,并且等价于1×1卷积。自注意力的对应物是更恰当的非退化(例如3×3)卷积。这在很大程度上弥补了NLP和Vision之间的架构差距。ViT在高级学习中,特别是在大规模数据和高容量模型中,具有惊人的精确度。鉴于这些特性,本论文认为ViT是计算机视觉下自监督学习的一个必须研究的基线。
-
ViT模型是新的,它们的核心方法还有待更新。
与标准卷积网络不同的是,由于各学者的持续的研究,卷积网络的训练实践已经得到了广泛的研究,ViT模型是新的,它们的核心方法还有待更新。在这项工作中,本论文回到基础并研究训练深度神经网络的基本组成部分:批量大小、学习速率和优化器。
-
在各种情况下,不稳定性是影响自监督ViT训练的一个主要问题。
不稳定的ViT训练可能不会导致灾难性的失败(例如,发散);相反,它会导致精度轻度下降(例如1%-3%)。这种退化程度可能不会太明显,除非有更稳定的对应物可供比较。据本论文所知,这种现象在卷积网络训练领域是很少见的,本论文认为这个问题及其隐藏的退化是值得注意的。为了演示不稳定性可能带来的危害,本论文考察了一个在实践中可以提高稳定性的简单技巧。基于对梯度变化的经验观察,本论文冻结了ViT中的块投影层,即本论文使用固定的随机块投影。本论文的经验表明,这一技巧缓解了几个SCE中的不稳定性问题,并不断提高精确度。
-
视觉自监督transformer。
无监督的预训练使自然语言处理(NLP)发生了革命性的变化。在计算机虚拟实验中,无/自监督的预训练范式至少在两个方面与它们的NLP对应的范式不同:(1)NLP的学习器是掩码的自动编码器,而在vision中,最近流行的选择是Siamese网络;(ii)NLP的主干结构是自注意力transformer,而在vision中,通常的选择是卷积的-但非注意力的深度残差网络。在开创性的著作中,训练自监督的transformer解决虚拟问题一般遵循NLP中的掩码自动编码范式。iGPT对像素进行掩码和重建,ViT的自监督变体对图像块进行掩码和重建。为了完成视觉自监督学习的大图景,缩小视觉和语言在训练前方法