【YOLOv12新鲜出炉，更高效、更精准！】

原创已于 2025-02-21 09:14:01 修改 · 1.4k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#YOLO #YOLOv12 #人工智能

于 2025-02-21 09:13:46 首次发布

笔记同时被 3 个专栏收录

100 篇文章

订阅专栏

深度学习

26 篇文章

订阅专栏

目标检测

11 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

【YOLOv12新鲜出炉，更高效、更精准！】

标题: YOLOv12: Attention-Centric Real-Time Object Detectors
作者: Yunjie Tian（布法罗大学）、Qixiang Ye（中国科学院大学）、David Doermann（布法罗大学）
代码仓库: github.com/sunsmarterjie/yolov12
论文下载：https://arxiv.org/abs/2502.12524

一、引言：YOLO框架与注意力机制的结合

近年来，YOLO系列模型凭借其高效的实时检测能力，在目标检测领域占据主导地位。然而，传统YOLO模型主要依赖卷积神经网络（CNN）的改进，而视觉Transformer（ViT）等基于注意力机制的模型虽在建模能力上更优，却因计算复杂度和内存访问效率问题难以满足实时性需求。YOLOv12的提出，首次将注意力机制成功融入YOLO框架，在保持实时速度的同时显著提升检测精度。本文将从技术细节、实验数据与创新设计角度，深入解析这一突破性工作。

在这里插入图片描述

二、YOLOv12的创新设计

1.区域注意力模块 (Area Attention)

在这里插入图片描述

传统全局注意力机制的复杂度为 $O ( L 2 d ) O(L^2 d) O(L2d)$ ，导致高分辨率图像处理时计算开销巨大。局部注意力虽降低复杂度，但窗口划分引入额外开销，且感受野受限。

YOLOv12的最大亮点在于它将注意力机制深度融合到YOLO框架中。传统的YOLO模型依赖于CNN进行特征提取和目标识别，而YOLOv12通过引入区域注意力模块（Area Attention），有效地提高了模型在复杂场景下的特征感知能力。与CNN的固定卷积核不同，注意力机制能够动态地调整关注的区域，帮助模型专注于重要的特征区域，从而提高精度。

区域划分与重塑：将特征图沿垂直或水平方向等分为(l)个区域（默认(l=4)），通过简单 重塑（reshape） 操作替代复杂窗口划分，复杂度降至 $O\left(\frac{L^2 d}{4}\right) O(4L2d)$ 。
位置感知器：引入 $\times 7) (7×7)$ 大核分离卷积，增强模型对空间位置的感知能力，弥补移除位置编码的信息损失。

实验数据：

模型	使用A²	FP32延迟 (ms)	CPU推理时间 (ms)
YOLOv12-N	✗	2.7	62.9
YOLOv12-N	✔	2.0 (-26%)	31.4 (-50%)
YOLOv12-X	✗	26.4	804.2
YOLOv12-X	✔	18.2 (-31%)	512.5 (-36%)

结论：A²显著降低计算开销，RTX 3080上FP32延迟减少26%，CPU推理时间缩短50%。

2. 残差高效层聚合网络（e residual efficient

layer aggregation networks， R-ELAN）
在这里插入图片描述
YOLOv12还引入了残差高效层聚合网络（R-ELAN），该模块通过融合多个层级的特征并加入残差连接，减少了信息流失和梯度消失问题。特别是在训练过程中，R-ELAN使得梯度能够在深层网络中更好地传播，从而提升了训练的稳定性。

3. 架构优化

YOLOv12还在架构上进行了多项优化。例如，优化了多层感知机（MLP）的比例设计，以减少不必要的计算开销。同时，YOLOv12移除了传统卷积网络中的位置编码，采用大核分离卷积（large kernel separable convolution）来提高位置感知能力，进一步降低了计算复杂度。

移除位置编码：简化结构，减少冗余计算（延迟从1.76ms降至1.64ms）。
MLP比例调整：从传统ViT的4.0降至1.2，平衡注意力与全连接层计算分配（mAP提升0.7%）。
卷积替代线性层：使用nn.Conv2d+BN替代nn.Linear+LN，提升硬件计算效率。

优化项	配置	mAP (%)	延迟 (ms)
注意力实现方式	Conv+BN	40.6	1.64
注意力实现方式	Linear+LN	40.5	1.68
MLP比例	1.2	53.8	6.77
MLP比例	4.0	53.1	6.68

架构优化在精度与速度间取得平衡，Conv+BN比Linear+LN快2.4%

实验数据

在这里插入图片描述

三、性能评测与优势

1. 精度与速度的平衡：

YOLOv12在精度上超越了大多数当前流行的目标检测器，包括YOLOv10和YOLOv11。例如，YOLOv12-N在T4 GPU上以1.64毫秒的推理延迟实现了40.6%的mAP，优于YOLOv10-N（提升2.1%）和YOLOv11-N（提升1.2%），且两者在速度上相当。这一优势不仅在小模型规模下显现，在大规模模型下亦表现出色。
在这里插入图片描述

2. 与其他实时检测器的对比：

YOLOv12在与基于DETR（DEtection TRansformers）改进的实时检测器（如RT-DETR和RT-DETRv2）进行比较时，表现出了明显的优势。具体如下表：

YOLOv12-N在相同计算量下，mAP比YOLOv10-N提升2.1%。
YOLOv12-S仅需RT-DETR-R18 36%的计算量，速度提升42%。
YOLOv12-X以55.2% mAP刷新COCO检测精度记录。****

综合性能对比

模型规模与精度

模型	mAP (%)	FLOPs (G)	参数 (M)	延迟 (ms)
YOLOv10-N	38.5	6.7	2.3	1.84
YOLOv12-N	40.6	6.5	2.6	1.64
RT-DETR-R18	46.5	60.0	20.0	4.58
YOLOv12-S	48.0	21.4	9.3	2.61
YOLOv10-X	54.4	160.4	29.5	10.70
YOLOv12-X	55.2	199.0	59.1	11.79

3. 硬件适配性：

YOLOv12在多种硬件平台上表现出色。特别是在高端GPU（如RTX 3080和A5000）上，YOLOv12不仅推理速度优越，而且硬件适配性强，能够在不同设备上实现高效的目标检测。

四、实验结果与验证

通过一系列消融实验，YOLOv12验证了注意力机制和R-ELAN模块在提高模型性能方面的有效性。实验表明，YOLOv12能够在不显著增加计算开销的前提下，显著提升目标检测的精度，尤其在小目标检测、密集场景和复杂背景下，YOLOv12展现出了极强的优势。

可视化与热图对比

A²的大感受野使模型能捕捉全局上下文，结合位置感知器增强空间信息，激活区域更聚焦于目标主体。

在这里插入图片描述

五、总结

YOLOv12的提出是目标检测领域的一次重要突破，它将注意力机制和传统YOLO框架成功结合，解决了注意力机制与速度之间的矛盾。通过区域注意力（降低复杂度）、R-ELAN模块（解决优化难题）以及架构优化（精简设计），YOLOv12在精度、速度和计算效率之间取得了令人瞩目的平衡，超越了YOLOv10、YOLOv11以及基于Transformer的实时检测器。未来，YOLOv12不仅为目标检测提供了一个高效的解决方案，还为基于注意力机制的模型设计提供了新的思路和方向。