YOLO算法改进Backbone系列之：PVT

最新推荐文章于 2024-08-15 17:14:08 发布

BestSongC

最新推荐文章于 2024-08-15 17:14:08 发布

阅读量1k

点赞数 12

文章标签： YOLO 算法目标检测 python 深度学习

本文链接：https://blog.youkuaiyun.com/sc1434404661/article/details/137478241

版权

文章介绍了PyramidVisionTransformer(PVT)，一种无CNN的Transformer架构，通过引入金字塔结构和SRA注意力层，提高了密集预测任务的性能，如目标检测和分割。相比于ViT，PVT具有更高的灵活性、通用性和计算效率，已在COCO上实现显著性能提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要：尽管基于CNNs的backbone在多种视觉任务中取得重大进展，但本文提出了一个用于密集预测任务的、无CNN的的简单backbone——Pyramid Vision Transformer（PVT）。相比于ViT专门用于图像分类的设计，PVT将金字塔结构引入到transformer，使得可以进行下游各种密集预测任务，如检测、分割等。与现有技术相比，PVT有如下优点：（1）相比于ViT的低分辨率输出、高计算复杂度、高内存占用，PVT不仅可以对图像进行密集划分训练以达到搞输出分辨率的效果（这对密集预测很重要），还可以使用一个逐渐缩小的金字塔来降低大feature maps的计算量；（2）PVT兼具了CNNs和Transformer的优点，使其成为一个通用的无卷积backbone，可以直接替换基于CNN的backbone；（3）大量实验表明，PVT可以提高多种下游任务的性能，如目标检测、语义/实例分割等。比如，参数量相当的情况下， RetinaNet+PVT可以在COCO上达到40.4AP，而RetinNet+ResNet50只有36.3AP。作者希望PVT能够成为像素级预测任务的一种可供选择的backbone，并促进后续的研究。

CNN通过stack CNN 层来学习一个层次化的feature representations, 并且随着层数的增加，感受野越来越大, channel数越来越大，feature map尺寸越来越小，然后后边连接一到多个特定的任务网络来执行具体的任务;
如图b，经典的ViT是一个柱式结构，实际上就是stack transformer block, 为了把NLP中的Transformer用到Vision中，惯