【arxiv论文阅读】Transformers in Vision: A Survey.

Khan, S., Naseer, M., Hayat, M., Zamir, S. W., Khan, F. S., & Shah, M. (2021). Transformers in Vision: A Survey. In arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2101.01169

Transformer综述

摘要
Transformer模型在自然语言任务上取得的惊人成果引起了视觉社区对研究它们在计算机视觉问题中的应用的兴趣。在它们显著的优势中,Transformer使得能够对输入序列元素之间的长依赖关系进行建模,并支持对序列的并行处理,相比之下循环网络(如长短时记忆网络 LSTM)需要更多的设计归纳偏差。与卷积网络不同,Transformer在设计上需要最少的归纳偏差,并且天然适用于作为集合函数。此外,Transformer的直观设计允许使用类似的处理模块处理多种模态(例如图像、视频、文本和语音),并展现出对非常大容量网络和庞大数据集的卓越可扩展性。这些优势导致了在使用Transformer网络解决许多视觉任务方面的令人兴奋的进展。本调查旨在提供计算机视觉领域中关于Transformer模型的全面概述。我们首先介绍了Transformer成功背后的基本概念,即自注意力、大规模预训练和双向编码。然后,我们涵盖了Transformer在视觉中的广泛应用,包括流行的识别任务(例如图像分类、目标检测、动作识别和分割)、生成建模、多模态任务(例如视觉问答、视觉推理和视觉定位)、视频处理(例如活动识别、视频预测)、低级别视觉(例如图像超分辨率、图像增强和上色)以及3D分析(例如点云分类和分割)。我们比较了流行技术在架构设计和实验价值方面的各自优势和局限性。最后,我们对开放的研究方向和可能的未来工作进行了分析。

在这里插入图片描述
图1:关于关键词(如BERT、Self-Attention和Transformers)在同行评审和

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王知为

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值