YOLOv13改进策略【Backbone/骨干网络】| 替换骨干网络为 MobileViTv1高效的信息编码与融合模块,获取局部和全局信息

一、本文介绍

本文记录的是基于MobileNet V4的YOLOv13目标检测轻量化改进方法研究

其中MobileViT块旨在以较少的参数对输入张量中的局部和全局信息进行建模,结合卷积与 Transformer 的优势,并实现有效的信息编码与融合,。本文配置了原论文中MobileViT-SMobileViT-XSMobileViT-XXS三种模型,以满足不同的需求。


专栏目录:YOLOv13改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进

专栏地址:YOLOv13改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!


二、MobileViT V1模型轻量化设计

MOBILEVIT: LIGHT-WEIGHT, GENERAL-PURPOSE, AND MOBILE-FRIENDLY VISION TRANSFORMER

2.1 出发点

  • 轻量级卷积神经网络(CNNs)虽在移动视觉任务中有应用,但存在空间局限性。基于自注意力的视觉Transformer(ViTs)虽可学习全局表示,但模型较重。因此需要结合两者优势,构建适用于移动视觉任务的轻量级、低延迟网络。

2.2 原理

  • Transformer视为卷积,学习全局表示的同时,隐式地结合卷积的特性(如空间偏差),并能用简单的训练方法(如基本的数据增强)学习表示,还能轻松与下游架构集成。

2.3 结构

2.3.1 MobileViT块

  • 对于输入张量 x ∈ R H × W × C x\in\mathbb{R}^{H\times W\times C}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Limiiiing

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值