在视觉任务中,传统 Transformer 的 Softmax 注意力机制受限于二次方的计算复杂度,难以应对大规模特征处理需求。线性注意力虽通过核函数近似与计算顺序调整,将复杂度优化为线性水平,但因输出特征存在低秩缺陷,导致对复杂空间信息的建模能力薄弱,性能远不及 Softmax 注意力,RALA 的提出旨在破解这一 “高效但性能不足” 的矛盾。


1. RALA原理
DPCF 模块的核心原理是 “分区域自适应调控,细节与语义协同保留”,通过三层逻辑实现多尺度特征的高效融合:
RALA 的核心思路是通过秩增强解决线性注意力的性能瓶颈:一方面,在 KV 缓冲计算阶段,引入基于全局查询与键相关性的权重系数,突出高信息价值 token 的作用,减少特征冗余,提升 KV 缓冲的矩阵秩;另一方面,在输出特征生成阶段,融合原始输入 token 的变换特征与 KV 缓冲的交互结果,通过通道维度的特征互补,消除信息损失,使输出特征矩阵达到满秩,从而强化特征多样性与空间建模能力。

RALA 由两大核心功能模块构成:一是 KV 缓冲秩增强模块,通过动态权重分配重构 KV 缓冲的计算逻辑;二是输出特征秩增强模块,采用线性投影变换原始 token,并通过 Hadamard 乘积与注意力交互特征融合。基于该结构搭建的网络,以堆叠式 Transformer 块为基础,包含 RALA 层与前馈网络层,搭配条件位置编码补充空间信息,形成高效且强表达的视觉骨干架构。
2. RALA习作思路
在目标检测任务中:依托秩增强原理,RALA 能生成更具多样性与辨识度的特征,可精准捕捉目标的形态细节、空间位置关系及全局上下文关联,同时线性计算特性确保了检测流程的高效推理,既能提升对复杂场景中多尺度目标的识别准确率,又能避免计算开销过度增加,实现检测精度与速度的平衡。
在分割任务中:RALA 通过满秩特征输出,强化了像素级特征的区分度与空间连续性,能够清晰刻画不同语义区域的边界细节,同时高效的计算模式支持大规模特征图处理,可充分挖掘图像的细粒度语义信息,助力模型精准划分不同类别区域,提升分割结果的语义一致性与完整性。
3. YOLO与RALA的结合
RALA 的线性复杂度可与 YOLO 的高效检测框架完美适配,在不显著增加推理延迟的前提下,为 YOLO 提供更强的特征表达能力;其秩增强特性能提升 YOLO 对小目标、遮挡目标的特征捕捉能力,优化复杂场景下的检测鲁棒性,进一步缩小与高精度模型的性能差距。
4.RALA代码部分
YOLOv11模型改进讲解,教您如何根据自己的数据集选择最优的模块提升精度_哔哩哔哩_bilibili
用一篇论文教您如何使用YOLOv11改进模块写一篇1、2区论文_哔哩哔哩_bilibili
YOLOv11模型改进讲解,教您如何修改YOLOv11_哔哩哔哩_bilibili
代码获取:YOLOv8_improve/YOLOv11.md at master · tgf123/YOLOv8_improve
5. RALA到YOLOv11中
第一: 将下面的核心代码复制到D:\model\yolov11\ultralytics\change_model路径下,如下图所示。
第二:在task.py中导入包
第三:在task.py中的模型配置部分下面代码
第四:将模型配置文件复制到YOLOV11.YAMY文件中
第五:运行代码
from ultralytics.models import NAS, RTDETR, SAM, YOLO, FastSAM, YOLOWorld
import torch
if __name__=="__main__":
# 使用自己的YOLOv8.yamy文件搭建模型并加载预训练权重训练模型
model = YOLO("/home/shengtuo/tangfan/YOLO11/ultralytics/cfg/models/11/yolo11_RALA.yaml")\
# .load(r'E:\Part_time_job_orders\YOLO\YOLOv11\yolo11n.pt') # build from YAML and transfer weights
results = model.train(data="/home/shengtuo/tangfan/YOLO11/ultralytics/cfg/datasets/VOC_my.yaml",
epochs=300,
imgsz=640,
batch=4,
# cache = False,
# single_cls = False, # 是否是单类别检测
# workers = 0,
# resume=r'D:/model/yolov8/runs/detect/train/weights/last.pt',
amp = False
)
5361

被折叠的 条评论
为什么被折叠?



