一、本文介绍
🔥本文给大家介绍使用MaSA曼哈顿自注意力改进YOLOv11,可以显著提升目标检测的性能,尤其在处理复杂背景、边缘细节和小物体时。MaSA通过引入曼哈顿距离的空间衰减矩阵,增强了YOLOv11对空间信息的感知能力,减少了计算复杂度,同时提高了小物体和细节的检测精度,适合在实时检测任务中使用。
专栏改进目录:YOLOv11改进专栏包含卷积、主干网络、各种注意力机制、检测头、损失函数、Neck改进、小目标检测、二次创新模块、C2PSA/C3k2二次创新改进、全网独家创新等创新点改进
全新YOLOv11-发论文改进专栏链接:全新YOLOv11创新改进高效涨点+永久更新中(至少500+改进)+高效跑实验发论文
本文目录
1.首先在ultralytics/nn/newsAddmodules创建一个.py文件
2.在ultralytics/nn/newsAddmodules/__init__.py中引用
🚀 创新改进3: yolov11n_C3k2_MaSA.yaml
二、MaSA曼哈顿自注意力模块介绍

摘要:视觉变换器(ViT)近年来在计算机视觉领域备受关注。然而,ViT的核心组件自注意力机制缺乏显式的空间先验知识,且计算复杂度呈二次方增长,这限制了其实际应用。为解决这些问题,我们借鉴自然语言处理领域最新提出的RetNet网络,提出了一种通用型强视觉主干网络RMT,该网络具备显式的空间先验知识。具体而言,我们将RetNet的时间衰减机制扩展到空间域,基于曼哈顿距离构建空间衰减矩阵,为自注意力机制引入显式空间先验。同时,我们提出了一种能灵活适配显式空间先验的注意力分解形式,旨在降低全局信息建模的计算负担,同时不影响空间衰减矩阵的性能。基于空间衰减矩阵和注意力分解形式,我们能够以线性复杂度灵活地将显式空间先验融入视觉主干网络。大量实验表明,RMT在各类视觉任务中表现卓越。具体而言,在无需额外训练数据的情况下,RMT在ImageNet-1k数据集上使用 27M/4.5GFLOPs 和 96M/18.2GFLOPs 方法分别达到84.8%和86.1%的top-
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



