Next-ViT学习笔记

最新推荐文章于 2025-04-04 09:55:22 发布

原创

最新推荐文章于 2025-04-04 09:55:22 发布 · 3.6k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #深度学习 #transformer

Next-ViT提出了一种新一代视觉Transformer，旨在解决Transformer在现实工业场景中的部署性能问题。通过Next-卷积块（NCB）和Next-变换块（NTB）设计，结合Next混合策略（NHS），它在延迟和准确性间取得优异平衡，超越CNN和ViT在COCO检测和ADE20K分割任务中。文章展示了Next-ViT在TensorRT和CoreML上的SOTA表现，为工业部署提供了新思路。

Next-ViT学习笔记

Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial Scenarios

Abstract

由于复杂的注意力机制和模型设计，大多数现有的视觉变换器（VIT）在现实的工业部署场景（例如TensorRT和CoreML）中的性能不如卷积神经网络（CNN）。这提出了一个明显的挑战：视觉神经网络的设计能否像CNN一样快速推断，并像VIT一样强大？最近的工作试图设计CNN-Transformer 混合架构来解决这个问题，但这些工作的整体性能远不能令人满意。为此，我们提出了一种新一代视觉Transformer，用于在现实工业场景中高效部署，即Next-ViT，从延迟/准确性权衡的角度来看，它在CNN和ViT中占主导地位。在这项工作中，分别开发了Next卷积块（NCB）和Next变换块（NTB），以使用部署友好的机制捕获局部和全局信息。然后，设计了Next混合策略（NHS），将NCB和NTB堆叠在一个有效的混合范例中，从而提高了各种下游任务的性能。大量实验表明，Next ViT在各种视觉任务的延迟/准确性权衡方面显著优于现有CNN、ViT和CNN Transformer混合架构。在TensorRT上，Next ViT在COCO检测上超过ResNet 5.4 mAP（从40.4到45.8），在相似延迟下在ADE20K分割上超过8.2%mIoU（从38.8%到47.0%）。同时，其性能与CSWin相当，推理速度提高了3.6×。在CoreML上，在相似的延迟下，Next ViT在COCO检测上比EfficientFormer高4.6MAP（从42.6到47.2），在ADE20K分割上比EFIFICENTFORMEr高3.5%mIoU（从45.2%到48.7%）。代码将于近期发布。

1、Introduction

最近，视觉变换器（VIT）在工业界和学术界受到了越来越多的关注，并在各种计算机视觉任务中取得了很大的成功，如图像分类、目标检测、语义分割等。然而，从实际部署的角度来看，CNN仍然主导着视觉任务，因为VIT通常比经典CNN（例如ResNets）慢得多。有一些因素限制了Transformer模型的推理速度，包括关于多头自注意力（MHSA）机制的令牌长度的二次复杂度、 non-foldable LayerNorm和GELU层，复杂模型设计导致频繁的内存访问和复制等。

许多作品都在努力将VIT从高延迟困境中解放出来。例如，SWN Transformer[19]和PVT[34]试图设计更有效的空间注意机制，以缓解MHSA二次增加的计算复杂度。其他人[4、17、23]考虑结合高效卷积块和强大的变换块来设计CNN-Transformer混合架构，以在准确性和延迟之间获得更好的权衡。巧合的是，几乎所有现有的混合架构[4、17、23]在浅层阶段采用卷积块，在最后几个阶段仅采用堆栈变换块。然而，我们观察到，这种混合策略很容易导致下游任务（例如分割和检测）的性能饱和。此外，我们发现现有工作中的卷积块和变换块不能同时具有效率和性能的特征。虽然与Vision Transformer相比，准确性-延迟权衡有所改善，但现有混合架构的整体性能仍远不能令人满意。

为了解决上述问题，本文开发了三个重要组件来设计高效的视觉Transformer网络，首先，我们介绍了Next-卷积块（NCB），该卷积块擅长使用一种新的部署友好型Multi-Head Convolutional Attention（MHCA）捕捉视觉数据中的短期依赖信息。其次，我们构建了Next Transformer Block（NTB），NTB不仅是捕捉长期依赖信息的专家，而且还是一个轻量级的高低频信号混合器，以增强建模能力。最后，我们设计了Next-混合策略（NHS），在每个阶段以一种新的混合范式堆叠NCB和NTB，这大大减少了变换块的比例，并在各种下游任务中保持了视觉变换网络的高精度。

基于以上提出的方法，我们提出了适用于现实工业部署场景的下一代视觉转换器（缩写为next ViT）。在本文中，为了进行公平的比较，我们提供了一种将特定硬件上的延迟视为直接效率反馈的观点。TensorRT和CoreML分别代表服务器端和移动端设备的通用且易于部署的解决方案，有助于提供令人信服的面向硬件的性能指导。在这种直接而准确的指导下，我们在图1中重新绘制了几个现有竞争模型的准确性和延迟权衡图。如图1（a）（d）所示，Next-ViT在ImageNet-1K分类任务中实现了最佳延迟/准确性权衡。更重要的是，Next ViT在下游任务上显示出更显著的延迟/准确性权衡优势。如图1（b）（c）所示，在TensorRT上，Next ViT在COCO检测上优于ResNet 5.4 mAP（从40.4到45.8），在类似延迟下，在ADE20K分割上优于ResNet 8.2%mIoU（从38.8%到47.0%）。Next-ViT实现了与CSWin相当的性能，同时推理速度提高了3.6×。如图1（e）（f）所示，在CoreML上，Next-ViT在COCO检测上超过了EfficientFormer 4.6 mAP（从42.6到47.2），在相似的CoreML延迟下，在ADE20K分割上超过了3.6%mIoU（从45.2%到48.7%）。

我们的主要贡献总结如下：

1）我们开发了具有部署友好机制的强大卷积块和变换块，即NCB和NTB。Next-ViT堆栈NCB和NTB 构建先进的CNN-Transformer混合架构。

2）我们从一个新的角度设计了一种创新的CNN Transformer混合策略，该策略可以高效地提高性能。

3）我们介绍了Next-。大量实验证明了Next ViT的优势。它在TensorRT和CoreML上实现了图像分类、目标检测和语义分割的SOTA延迟/精度权衡。

我们相信，在视觉神经网络设计方面，我们的工作在学术研究和工业部署之间搭建了一座稳定的桥梁。我们希望，我们的工作将为实际工业部署提供新的见解，并推动更多的神经网络架构设计研究。

2. Related Work

Convolutional Networks

在过去十年中，卷积神经网络（CNN）在各种计算机视觉任务中占据主导地位，包括图像分类、目标检测和语义分割。ResNet[9]使用剩余连接来消除网络退化，确保网络构建更深，并能够捕获高层抽象。DenseNet[12]交替增强特征重用，并通过密集连接连接特征映射。MobileNet[11，28]引入深度卷积和点卷积来构建内存小、延迟低的模型。ShuffleNet[43]采用分组逐点卷积和信道洗牌来进一步降低计算成本。ShuffleteV2[22]提出，网络架构设计应考虑速度等直接指标，而不是类似浮点运算的间接指标。ConvNeXt[20]回顾了视觉变换器的设计并提出了一种纯CNN模型，该模型可以在多个计算机视觉基准上与SOTA分层视觉变换器竞争，同时保持标准CNN的简单性和效率。

Vision Transformers

Transformer是在自然语言处理领域首次提出的。ViT[6]将图像分割成小块，并将这些小块视为文字来执行自我注意力，这表明Transformer在各种视觉任务中也取得了令人印象深刻的性能。DeiT[31]介绍了一种针对变形金刚的师生策略。T2T ViT[41]引入了一种新的令牌到令牌（T2T）过程，以逐步将图像令牌化为令牌，并在结构上聚合令牌。Swin Transformer[19]提出了一种通用的Transformer主干，它构造了层次特征映射，并且具有与图像大小成线性关系的计算复杂度。PiT[10]在ViT中加入了一个池层，并通过大量实验表明，这些优势可以很好地与ViT协调。如今，研究人员更加关注效率，包括有效的自我注意力、训练策略、金字塔设计等

Hybrid Models.

最近的工作[7、17、23、29、35]表明，将卷积和Transformer结合作为一种混合架构有助于吸收这两种架构的优点。BoTNet[29]在ResNet的最后三个瓶颈块中用全局自注意力取代了空间卷积。CvT[35]在自我注意力之前引入了深度卷积和点卷积。CMT[7]提出了一种新的基于变换器的混合网络，利用变换器捕捉长程依赖关系，并利用CNN对局部特征进行建模。在MobileViT[23]中，介绍了一种用于移动设备的轻型通用视觉转换器。移动前者[2]与提出的轻量级交叉注意力相结合，对桥梁进行建模，不仅计算效率高，而且具有更大的表示能力。EfficientFormer[17]符合尺寸一致性设计，能够顺利利用硬件友好的4DMetaBlocks和强大的3D MHSA块。在本文中，我们设计了一系列更适合现实工业场景的下一代ViT模型。

3. Methods

在本节中，我们首先演示拟议的Next-ViT的概述。然后，我们讨论了Next-ViT中的一些核心设计，包括Next-卷积块（NCB）、Next-变压器块（NTB）和Next-混合策略（NHS）。此外，我们提供了不同模型尺寸的架构规范。

3.1. Overview

我们展示了Next-ViT，如图2所示。按照惯例，Next-ViT遵循分层金字塔结构，每个阶段配备一个补丁嵌入层和一系列卷积或变换块。空间分辨率将逐渐降低32×同时通道尺寸将在不同阶段扩展。在本章中，我们首先深入设计信息交互的核心块，并分别开发强大的NCB和NTB来建模视觉数据中的短期和长期依存关系。局部和全局信息的融合也在NTB中执行，这进一步增强了建模能力。最后，我们系统地研究了卷积和变换块的集成方式。为了克服现有方法的固有缺陷，我们引入了Next- Hybrid Strategy，该策略将创新的网络连接断路器和非传输断路器堆叠起来，以构建我们先进的 CNN-Transformer hybrid architecture架构。

3.2. Next Convolution Block (NCB)

为了展示所提出的神经网络连接块的优越性，我们首先回顾了卷积和变换块的一些经典结构设计，如图3所示。ResNet[9]提出的瓶颈块由于其固有的感应偏差和大多数硬件平台中易于部署的特点，在视觉神经网络中长期占据主导地位。不幸的是，与变压器块相比，瓶颈块的有效性并不令人满意。ConvNeXt块[20]通过模仿变压器块的设计使瓶颈块现代化。虽然ConvNeXt块在一定程度上提高了网络性能，但它在TensorRT/CoreML上的推理速度受到了效率低下的组件的严重限制，如7×7深度卷积、分层形式和GELU。Transformer block在各种视觉任务中都取得了出色的结果，其内在优势是由元前体[40]和基于注意力的令牌混合模块[19][5]共同赋予的。然而，由于其复杂的注意机制，Transformer块的推理速度远低于TensorRT和CoreML上的瓶颈块，这在大多数现实工业场景中是无法忍受的。

为了克服上述块的缺点，我们引入了下一个卷积块（NCB），该卷积块保持了瓶颈块的部署优势，同时获得了作为变换块的显著性能。如图3（f）所示，NCB遵循MetaFormer[40]的一般架构，经验证，该架构对变压器块至关重要。同时，有效的基于注意力的令牌混合器也同样重要。我们设计了一种新型的多头卷积注意力（MHCA）作为一种高效的令牌混合器，具有部署友好的卷积操作。最后，我们在元前体[40]的范例中构建了具有MHCA和MLP层的NCB。我们提议的NCB可制定如下：