江大白 | 目标检测YOLOv12算法来袭，更高性能、更快速度！（附论文及源码）

最新推荐文章于 2025-11-03 19:09:20 发布

原创最新推荐文章于 2025-11-03 19:09:20 发布 · 991 阅读

·

20

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#YOLO #人工智能 #计算机视觉 #python #目标检测 #学习 #算法

深度学习拓展阅读同时被 2 个专栏收录

991 篇文章

订阅专栏

CV-目标检测专栏

145 篇文章

订阅专栏

本文来源公众号“江大白”，仅用于学术分享，侵权删，干货满满。

原文链接：目标检测YOLOv12算法来袭，更高性能、更快速度！（附论文及源码）

导读

目标检测是CV领域最常用的算法应用，而Yolo是目标检测算法非常经典的算法模型，近日Yolov12算法正式开源，提出区域注意力模块，残差高效层聚合网络，性能更好，速度更快，希望对大家学习理解有帮助！

论文：https://arxiv.org/abs/2502.12524
代码：https://github.com/sunsmarterjie/yolov12

本文创新点

这篇论文围绕实时目标检测，在网络架构设计上引入创新，克服了传统注意力机制在实时应用中的速度瓶颈，提升了检测性能。

- 构建注意力中心框架
  
  突破传统 YOLO 依赖 CNN 架构的局限，以注意力机制为核心设计 YOLOv12 框架，发挥注意力机制强大的建模能力，打破 CNN 模型在 YOLO 系列中的主导地位。
- 高效的区域注意力模块
  
  提出简单有效的区域注意力模块（A2），通过简单的特征图划分方式，在减少注意力计算复杂度的同时，保持较大的感受野，显著提升计算速度，且对性能影响较小。
- 残差高效层聚合网络
  
  引入 R-ELAN 解决注意力机制带来的优化挑战。通过块级残差设计和重新设计的特征聚合方法，增强特征聚合能力，降低模型计算成本和参数 / 内存使用，保证大模型稳定训练。
- 优化基础注意力机制
  
  对基础注意力机制进行多项改进，如调整 MLP 比例、采用卷积算子、去除位置编码并引入大的可分离卷积感知位置信息等，使模型更适配 YOLO 系统的实时性要求，提升综合性能。

本文实验

对于N规模模型，YOLOv12-N在mAP方面分别优于YOLOv6-3.0-N 、YOLOv8-N 、YOLOv10-N 和YOLOv11 3.6%、3.3%、2.1%和1.2%，同时保持相似甚至更少的计算量和参数，并实现1.64 ms/图像的快速延迟速度。
对于S规模模型，YOLOv12-S具有21.4G FLOPs和9.3M参数，以2.61 ms/图像的延迟实现了48.0 mAP。它分别优于YOLOv8-S[24]、YOLOv9-S [58]、YOLOv10-S [53]和YOLOv11-S [28]3.0%、1.2%、1.7%和1.1%，同时保持相似或更少的计算量。与端到端检测器 RT-DETR-R18[66] / RT-DETRv2-R18 [41] 相比，YOLOv12-S 取得了可比拟的性能，但推理速度更快，计算成本更低，参数也更少。
对于 M 尺度模型，YOLOv12-M，具有 67.5G FLOPs 和 20.2M 个参数，实现了 52.5 mAP 性能和 4.86 ms/图像的速度。与 Gold-YOLO-M [54]、YOLOv8-M [24]、YOLOv9-M [58]、YOLOv10 [53]、YOLOv11 [28] 和 RT-DETR-R34 [66] / RT-DETRv2-R34 [40] 相比，YOLOv12-S 表现更优。
对于 L 尺度模型，YOLOv12-L 甚至超过了 YOLOv10-L [53]，FLOPs 少了 31.4G。 YOLOv12-L 以可比拟的 FLOPs 和参数，比 YOLOv11 [28] 的 mAP 高 0.4%。 YOLOv12-L 还优于 RT-DERT-R50 [66] / RT-DERTv2-R50 [41]，速度更快，FLOPs 更少 (34.6%)，参数也更少 (37.1%)。
对于 X 尺度模型，YOLOv12-X 明显优于 YOLOv10-X [53] / YOLOv11-X [28]，分别高出 0.8% 和 0.6%，速度、FLOPs 和参数方面则可比拟。 YOLOv12-X 再次击败了 RT-DETR-R101 [66] / RT-DETRv2-R101 [40]，速度更快，FLOPs 更少 (23.4%)，参数也更少 (22.2%)。
特别地，如果使用 FP32 精度评估 L/X 尺度模型（这需要分别以 FP32 格式保存模型），YOLOv12 将实现 ∼0.2% mAP 的改进。这意味着 YOLOv12-L/X 将报告 33.9%/55.4% mAP。

THE END !

文章结束，感谢阅读。您的点赞，收藏，评论是我继续更新的动力。大家有推荐的公众号可以评论区留言，共同学习，一起进步。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。