一、本文介绍
本文记录的是基于MobileNet V4的YOLOv13目标检测轻量化改进方法研究。
其中MobileViT块旨在以较少的参数对输入张量中的局部和全局信息进行建模,结合卷积与 Transformer 的优势,并实现有效的信息编码与融合,。本文配置了原论文中MobileViT-S、MobileViT-XS和MobileViT-XXS三种模型,以满足不同的需求。
专栏目录:YOLOv13改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
文章目录
二、MobileViT V1模型轻量化设计
MOBILEVIT: LIGHT-WEIGHT, GENERAL-PURPOSE, AND MOBILE-FRIENDLY VISION TRANSFORMER
2.1 出发点
- 轻量级卷积神经网络(CNNs)虽在移动视觉任务中有应用,但存在空间局限性。基于自注意力的视觉Transformer(ViTs)虽可学习全局表示,但模型较重。因此需要结合两者优势,构建适用于移动视觉任务的轻量级、低延迟网络。
2.2 原理
- 将
Transformer视为卷积,学习全局表示的同时,隐式地结合卷积的特性(如空间偏差),并能用简单的训练方法(如基本的数据增强)学习表示,还能轻松与下游架构集成。
2.3 结构
2.3.1 MobileViT块
- 对于输入张量 x ∈ R H × W × C x\in\mathbb{R}^{H\times W\times C}
订阅专栏 解锁全文
803

被折叠的 条评论
为什么被折叠?



