YOLOv11涨点改进 | 独家创新、注意力改进篇 | CVPR 2024 | YOLOv11引入MaSA曼哈顿自注意力、含多种改进,助力目标检测、图像分割、图像分类有效涨点

一、本文介绍

🔥本文给大家介绍使用MaSA曼哈顿自注意力改进YOLOv11可以显著提升目标检测的性能,尤其在处理复杂背景、边缘细节和小物体时。MaSA通过引入曼哈顿距离的空间衰减矩阵,增强了YOLOv11对空间信息的感知能力,减少了计算复杂度,同时提高了小物体和细节的检测精度,适合在实时检测任务中使用。

专栏改进目录:YOLOv11改进专栏包含卷积、主干网络、各种注意力机制、检测头、损失函数、Neck改进、小目标检测、二次创新模块、C2PSA/C3k2二次创新改进、全网独家创新等创新点改进

全新YOLOv11-发论文改进专栏链接:全新YOLOv11创新改进高效涨点+永久更新中(至少500+改进)+高效跑实验发论文

本文目录

一、本文介绍

二、MaSA曼哈顿自注意力模块介绍

2.1 MaSA曼哈顿自注意力模块结构图

2.2 MaSA模块的作用:

2.3 MaSA模块的优势

2.4 MaSA模块的原理

三、完整核心代码

四、手把手教你配置模块和修改task.py文件

1.首先在ultralytics/nn/newsAddmodules创建一个.py文件

2.在ultralytics/nn/newsAddmodules/__init__.py中引用

3.修改task.py文件

五、创建涨点yaml配置文件

🚀 创新改进1: yolov11n_MaSA.yaml

🚀 创新改进3: yolov11n_C3k2_MaSA.yaml

六、正常运行


 

二、MaSA曼哈顿自注意力模块介绍

摘要:视觉变换器(ViT)近年来在计算机视觉领域备受关注。然而,ViT的核心组件自注意力机制缺乏显式的空间先验知识,且计算复杂度呈二次方增长,这限制了其实际应用。为解决这些问题,我们借鉴自然语言处理领域最新提出的RetNet网络,提出了一种通用型强视觉主干网络RMT,该网络具备显式的空间先验知识。具体而言,我们将RetNet的时间衰减机制扩展到空间域,基于曼哈顿距离构建空间衰减矩阵,为自注意力机制引入显式空间先验。同时,我们提出了一种能灵活适配显式空间先验的注意力分解形式,旨在降低全局信息建模的计算负担,同时不影响空间衰减矩阵的性能。基于空间衰减矩阵和注意力分解形式,我们能够以线性复杂度灵活地将显式空间先验融入视觉主干网络。大量实验表明,RMT在各类视觉任务中表现卓越。具体而言,在无需额外训练数据的情况下,RMT在ImageNet-1k数据集上使用 27M/4.5GFLOPs 和 96M/18.2GFLOPs 方法分别达到84.8%和86.1%的top-

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值