一、本文介绍
本文记录的是将RMT应用于YOLOv13骨干网络的改进方法研究。
RMT通过构建基于曼哈顿距离的空间衰减矩阵,引入显式空间先验,同时提出新的注意力分解形式,在不破坏空间衰减矩阵的前提下,以线性复杂度对全局信息进行稀疏建模。将RMT融入YOLOv13的骨干网络,能够有效提升其对图像空间信息的感知能力,在减少计算量的同时增强特征提取效果,进而提高YOLOv13在各项任务中的准确性与效率 。
在YOLOv13的基础上配置了原论文中RMT_T,RMT_S,RMT_B, RMT_L四种模型,以满足不同的需求。
专栏目录:YOLOv13改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
文章目录
二、RMT原理介绍
RMT:Retentive Networks Meet Vision Transformers
RMT模型是一种具有显式空间先验的视觉骨干网络,旨在解决Vision Transformer(ViT)中自注意力机制存在的问题。其结构设计的出发点、原理和优势如下:
2.1 出发点
ViT中的自注意力机制缺乏显式空间先验,且在对全局信息建模时具有二次计算复杂度,限制了ViT的应用。为缓解这些问题,作者从自然语言处理领域的Retentive Network(RetNet)中汲取灵感,提出RMT模型。
2.2 结构原理
- Manhattan Self - Attention(MaSA):将
RetNet中的单向一维时间衰减扩展为双向二维空间衰减,基于曼哈顿距离引入显式空间先验
订阅专栏 解锁全文
906

被折叠的 条评论
为什么被折叠?



