YOLOv11改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 RepViT 轻量级的Vision Transformers架构

Limiiiing

已于 2025-06-04 11:05:03 修改

阅读量2.2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： YOLOv11改进专栏文章标签： YOLO 深度学习目标检测计算机视觉

于 2024-10-20 14:43:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_42591591/article/details/143089105

YOLOv11改进专栏专栏收录该内容

该专栏为热销专栏榜第6名

196 篇文章 ¥99.90 ¥299.90

订阅专栏

一、本文介绍

本文记录的是基于RepVit的YOLOv11轻量化改进方法研究。RepVit的网络结构借鉴ViT的设计理念，通过分离的token mixe和channel mixer减少推理时的计算和内存成本，同时减少扩展比率并增加宽度，降低延迟，并通过加倍通道来弥补参数大幅减少的问题，提高了准确性。本文在替换骨干网络中配置了原论文中的repvit_m0_9、repvit_m1_0、repvit_m1_1、repvit_m1_5和repvit_m2_3五种模型，以满足不同的需求。

专栏目录：YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进

专栏地址：YOLOv11改进专栏——以发表论文的角度，快速准确的找到有效涨点的创新点！

文章目录

一、本文介绍
二、RepVit结构详解
三、RepVit模块的实现代码
四、修改步骤
五、yaml模型文件
- 5.1 模型改进⭐
六、成功运行结果

二、RepVit结构详解

2.1 出发点

在计算机视觉领域，设计轻量化模型对于在资源受限的移动设备上实现视觉模型的部署至关重要。近年来，轻量级Vision Transformers（ViTs）在移动设备上表现出优越性能和较低延迟，但ViTs和轻量级Convolutional Neural Networks（CNNs）在块结构、宏观和微观设计上存在显著差异未被充分研究。本研究从ViT视角重新审视轻量级CNNs的高效设计，旨在为移动设备探索更优的模型架构，因此提出了RepViT模型。

2.2 原理

2.2.1 借鉴ViT的设计理念

块设计（Block design）
- 分离token mixer和channel mixer：轻量级ViTs的块结构包含分离的token mixer和channel mixer这一重要设计特征。研究发现ViTs的有效性主要源于其通用的token mixer和channel mixer架构（MetaFormer架构）。在MobileNetV3 - L中，原始块设计使token mixer和channel mixer耦合，通过移动DW卷积和可选的挤压 - 激励（SE）层，成

了解本专栏

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Limiiiing 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。