一、YOLOv12
1.1介绍
YOLOv12改为以注意力为中心的架构,但依旧保留了关键的实时推理能力。yolov12论文YOLOv12: Attention-Centric Real-Time Object Detectors地址https://arxiv.org/pdf/2502.12524,当前在ultralytics中已实现。
1.2关键创新技术
- 区域注意力机制:直接将特征图水平和垂直划分固定数量的等大块,可以保留大的感受野,降低计算成本;
- 残差高效层聚合网络:这是一个基于ELAN改进的特征聚合模块。
- 主要特点:(1)采用带缩放系数的块级残差连接;(2)重构特征聚合路径。
- 优化注意力架构:(1)使用FlashAttention(2)取消了位置编码(3)调整MLP比率(4)减少堆叠块深度(5)新增7×7可分离卷积("位置感知器")隐式编码位置信息(6)在适当时机采用卷积运算。
- 依然支持多种任务:目标检测、实例分割、图像分类、姿态估计、旋转目标检测。
1.3其他
当前看到只公布了目标检测的预训练模型,其他任务的预训练还没公布。
二、对比实验
之前在自己项目上做过yolov8和yolov11对比,但yolov11效果提升不明显,所以当前依然使用yolov8与yolov12进行对比。以下实验使用实例分割任务进行对比,使用默认配置,图像为768*768,epochs=100.
模型 | R | mAP50 |
YOLOV8n-SEG | 0.574 | 0.56 |
YOLOV12n-SEG | 0.454 | 0.463 |
YOLOV8s-SEG | 0.614 | 0.57 |
YOLOV12s-SEG | 0.531 | 0.435 |
根据结果看,YOLOV8还是比较稳的,YOLOV12不适用于当前项目。