二十六章:Pyramid Vision Transformer ——金字塔视觉Transformer:一种无卷积的用于密集预测的多功能主干网络

&原文信息

原文题目:《Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions 》

引用:Wang W, Xie E, Li X, et al. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 568-578.

原文链接:https://openaccess.thecvf.com/content/ICCV2021/papers/Wang_Pyramid_Vision_Transformer_A_Versatile_Backbone_for_Dense_Prediction_Without_ICCV_2021_paper.pdficon-default.png?t=N6B9https://openaccess.thecvf.com/content/ICCV2021/papers/Wang_Pyramid_Vision_Transformer_A_Versatile_Backbone_for_Dense_Prediction_Without_ICCV_2021_paper.pdf

0.摘要

        虽然卷积神经网络(CNN)在计算机视觉领域取得了巨大成功,但本研究探讨了一种更简单、无卷积的骨干网络,适用于许多密集预测任务。与最近提出的专门用于图像分类的Vision Transformer(ViT)不同,我们引入了金字塔视觉Transformer(PVT)克服了将Transformer应用于各种密集预测任务的困难。与当前最先进的方法相比,PVT具有几个优点:

        (1)与通常输出低分辨率结果且计算和内存开销较高的ViT不同,PVT不仅可以在图像的密集分区上进行训练,以实现高输出分辨率,这对于密集预测非常重要,而且还使用逐渐缩小的金字塔来减少大型特征图的计算量。

        (2)PVT继承了CNN和Transformer的优点,使其成为各种视觉任务的统一骨干,无需卷积,可以直接替代CNN的骨干网络。

        (3)通过大量实验证明了PVT的有效性,它提升了许多下游任务的性能,包括物体检测、实例分割和语义分割。例如,在参数数量相当的情况下,PVT+RetinaNet在COCO数据集上达到了40.4的AP,超过了ResNet50+RetinaNet(36.3 AP)4.1个AP(见图2)。

我们希望PVT能够成为像素级预测的替代和有用的骨干网络,并促进未来的研究。

图1:不同架构的比较,其中“Conv”和“TF-E”分别代表“卷积”和“Transformer编码器”。

(a)许多CNN主干网络在目标检测(DET)、实例分割和语义分割(SEG)等密集预测任务中使用金字塔结构。

(b)最近提出的Vision Transformer(ViT)[12]是一种专为图像分类(CLS)而设计的“柱状”结构。 (c)通过将CNN的金字塔结构结合起来,我们提出了金字塔视觉Transformer(PVT),它可以用作许多计算机视觉任务的多功能主干网络,扩大了ViT的范围和影响。

此外,我们的实验还表明,PVT可以轻松与DETR [5]相结合,构建一个无需卷积的端到端目标检测系统。

 

1.引言

        卷积神经网络(CNN)在计算机视觉领域取得了显著的成功,使其成为几乎所有任务的通用和主导方法[53,21,72,48,20,38,8,31]。然而,本研究旨在探索一种超越CNN的替代骨干网络,用于密集预测任务,如物体检测[39,13]、语义分割[81]和实例分割[39],除了图像分类[11]之外。

        受到Transformer在自然语言处理中的成功启发,许多研究人员开始探索其在计算机视觉中的应用。例如,一些工作将视觉任务建模为具有可学习查询的字典查找问题,并在CNN骨干网络之上使用Transformer解码器作为任务特定的头部[5,82,71,55,23,41]。虽然一些先前的研究也将注意力模块[69,47,78]融入到CNN中,但据我们所知,在计算机视觉中探索一个干净且无卷积的Transformer骨干网络来解决密集预测任务的研究非常有限。

        最近,Dosovitskiy等人[12]提出了用于图像分类的Vision Transformer(ViT)。这是一种有趣且有意义的尝试,以无卷积模型取代CNN的骨干网络。如图1(b)所示,ViT具有柱状结构,以粗糙的图像块作为输入。虽然ViT适用于图像分类,但直接将其适应于像素级密集预测,如物体检测和分割,是具有挑战性的,因为

        (1)其输出特征图是单尺度低分辨率的,

        (2)即使对于常见的输入图像尺寸(例如COCO基准测试中800像素的短边),其计算和内存成本也相对较高。

        为了解决上述限制,本研究提出了一种纯Transformer骨干网络,称为金字塔视觉Transformer(PVT),可以在许多下游任务中替代CNN骨干网络,包括图像级预测和像素级密集预测。具体而言,如图1(c)所示,我们的PVT通过以下方式克服了传统Transformer的困难:

        (1)采用细粒度的图像块(即每个块4×4像素)作为输入,学习高分辨率的表示,这对于密集预测任务至关重要;

        

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值