Khan, S., Naseer, M., Hayat, M., Zamir, S. W., Khan, F. S., & Shah, M. (2021). Transformers in Vision: A Survey. In arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2101.01169
Transformer综述
摘要
Transformer模型在自然语言任务上取得的惊人成果引起了视觉社区对研究它们在计算机视觉问题中的应用的兴趣。在它们显著的优势中,Transformer使得能够对输入序列元素之间的长依赖关系进行建模,并支持对序列的并行处理,相比之下循环网络(如长短时记忆网络 LSTM)需要更多的设计归纳偏差。与卷积网络不同,Transformer在设计上需要最少的归纳偏差,并且天然适用于作为集合函数。此外,Transformer的直观设计允许使用类似的处理模块处理多种模态(例如图像、视频、文本和语音),并展现出对非常大容量网络和庞大数据集的卓越可扩展性。这些优势导致了在使用Transformer网络解决许多视觉任务方面的令人兴奋的进展。本调查旨在提供计算机视觉领域中关于Transformer模型的全面概述。我们首先介绍了Transformer成功背后的基本概念,即自注意力、大规模预训练和双向编码。然后,我们涵盖了Transformer在视觉中的广泛应用,包括流行的识别任务(例如图像分类、目标检测、动作识别和分割)、生成建模、多模态任务(例如视觉问答、视觉推理和视觉定位)、视频处理(例如活动识别、视频预测)、低级别视觉(例如图像超分辨率、图像增强和上色)以及3D分析(例如点云分类和分割)。我们比较了流行技术在架构设计和实验价值方面的各自优势和局限性。最后,我们对开放的研究方向和可能的未来工作进行了分析。
图1:关于关键词(如BERT、Self-Attention和Transformers)在同行评审和