YOLO算法改进Backbone系列之：EdgeViT

最新推荐文章于 2024-11-04 22:47:44 发布

BestSongC

最新推荐文章于 2024-11-04 22:47:44 发布

阅读量1.1k

点赞数 16

文章标签： YOLO 算法 pytorch 目标检测 python

本文链接：https://blog.youkuaiyun.com/sc1434404661/article/details/136546791

版权

文章探讨了如何通过引入EdgeViTs，一种结合了自注意力和卷积的轻量级视觉Transformer，解决在移动设备上部署高性能视觉模型的问题。EdgeViTs通过LGL瓶颈优化了计算效率和准确性，使得在移动设备上实现了ViTs与CNN的最佳性能平衡。同时，文章还提供了将EdgeViT应用于YOLOv5项目作为Backbone的教程步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要：在计算机视觉领域，基于Self-attention的模型(如ViTs)已经成为CNN之外的一种极具竞争力的架构。尽管越来越强的变种具有越来越高的识别精度，但由于Self-attention的二次复杂度，现有的ViT在计算和模型大小方面都有较高的要求。虽然之前的CNN的一些成功的设计选择(例如，卷积和分层结构)已经被引入到最近的ViT中，但它们仍然不足以满足移动设备有限的计算资源需求。这促使人们最近尝试开发基于最先进的MobileNet-v2的轻型MobileViT，但MobileViT与MobileNet-v2仍然存在性能差距。在这项工作中，作者进一步推进这一研究方向，引入了EdgeViTs，一个新的轻量级ViTs家族，也是首次使基于Self-attention的视觉模型在准确性和设备效率之间的权衡中达到最佳轻量级CNN的性能。这是通过引入一个基于Self-attention和卷积的最优集成的高成本的local-global-local (LGL) 信息交换瓶颈来实现的。对于移动设备专用的评估，不依赖于不准确的proxies，如FLOPs的数量或参数，而是采用了一种直接关注设备延迟和能源效率的实用方法。

基于自注意力机制的视觉Transformer(ViT)在视觉任务上，已经形成和CNN一样强有力的架构，但其计算量和模型大小很大。虽然一些工作通过引入先验信息或级联多阶段结构到ViT中，但在移动设备上仍不够高效。本文研究基于MobileNetV2的轻量化ViT，其通过引入局部-全局-局部(LGL)的bottleneck实现，其结合了注意力机制和CNN的优势。

作者提出了将VIT模型应用于移动端需要考虑的三个问题：
（1）推理速度要快。当前的一些指标如 FLOPs 难以反映模型在移动端的速度，因为内存访问速度、并行性等因素还要综合考虑
（2）模型可以大