本文来源公众号“江大白”,仅用于学术分享,侵权删,干货满满。
原文链接:目标检测YOLOv12算法来袭,更高性能、更快速度!(附论文及源码)
导读
目标检测是CV领域最常用的算法应用,而Yolo是目标检测算法非常经典的算法模型,近日Yolov12算法正式开源,提出区域注意力模块,残差高效层聚合网络,性能更好,速度更快,希望对大家学习理解有帮助!
-
论文:https://arxiv.org/abs/2502.12524
-
代码:https://github.com/sunsmarterjie/yolov12
本文创新点
这篇论文围绕实时目标检测,在网络架构设计上引入创新,克服了传统注意力机制在实时应用中的速度瓶颈,提升了检测性能。
-
-
构建注意力中心框架
突破传统 YOLO 依赖 CNN 架构的局限,以注意力机制为核心设计 YOLOv12 框架,发挥注意力机制强大的建模能力,打破 CNN 模型在 YOLO 系列中的主导地位。
-
高效的区域注意力模块
提出简单有效的区域注意力模块(A2),通过简单的特征图划分方式,在减少注意力计算复杂度的同时,保持较大的感受野,显著提升计算速度,且对性能影响较小。
-
残差高效层聚合网络
引入 R-ELAN 解决注意力机制带来的优化挑战。通过块级残差设计和重新设计的特征聚合方法,增强特征聚合能力,降低模型计算成本和参数 / 内存使用,保证大模型稳定训练。
-
优化基础注意力机制
对基础注意力机制进行多项改进,如调整 MLP 比例、采用卷积算子、去除位置编码并引入大的可分离卷积感知位置信息等,使模型更适配 YOLO 系统的实时性要求,提升综合性能。
-
本文实验
-
对于N规模模型,YOLOv12-N在mAP方面分别优于YOLOv6-3.0-N 、YOLOv8-N 、YOLOv10-N 和YOLOv11 3.6%、3.3%、2.1%和1.2%,同时保持相似甚至更少的计算量和参数,并实现1.64 ms/图像的快速延迟速度。
-
对于S规模模型,YOLOv12-S具有21.4G FLOPs和9.3M参数,以2.61 ms/图像的延迟实现了48.0 mAP。 它分别优于YOLOv8-S[24]、YOLOv9-S [58]、YOLOv10-S [53]和YOLOv11-S [28]3.0%、1.2%、1.7%和1.1%,同时保持相似或更少的计算量。 与端到端检测器 RT-DETR-R18[66] / RT-DETRv2-R18 [41] 相比,YOLOv12-S 取得了可比拟的性能,但推理速度更快,计算成本更低,参数也更少。
-
对于 M 尺度模型,YOLOv12-M,具有 67.5G FLOPs 和 20.2M 个参数,实现了 52.5 mAP 性能和 4.86 ms/图像的速度。 与 Gold-YOLO-M [54]、YOLOv8-M [24]、YOLOv9-M [58]、YOLOv10 [53]、YOLOv11 [28] 和 RT-DETR-R34 [66] / RT-DETRv2-R34 [40] 相比,YOLOv12-S 表现更优。
-
对于 L 尺度模型,YOLOv12-L 甚至超过了 YOLOv10-L [53],FLOPs 少了 31.4G。 YOLOv12-L 以可比拟的 FLOPs 和参数,比 YOLOv11 [28] 的 mAP 高 0.4%。 YOLOv12-L 还优于 RT-DERT-R50 [66] / RT-DERTv2-R50 [41],速度更快,FLOPs 更少 (34.6%),参数也更少 (37.1%)。
-
对于 X 尺度模型,YOLOv12-X 明显优于 YOLOv10-X [53] / YOLOv11-X [28],分别高出 0.8% 和 0.6%,速度、FLOPs 和参数方面则可比拟。 YOLOv12-X 再次击败了 RT-DETR-R101 [66] / RT-DETRv2-R101 [40],速度更快,FLOPs 更少 (23.4%),参数也更少 (22.2%)。
-
特别地,如果使用 FP32 精度评估 L/X 尺度模型(这需要分别以 FP32 格式保存模型),YOLOv12 将实现 ∼0.2% mAP 的改进。 这意味着 YOLOv12-L/X 将报告 33.9%/55.4% mAP。
THE END !
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。