原文链接:
1)今日全新YOLOv13发布,全文内容解读,附论文和代码!
2)YOLOv13震撼发布 | 超图高阶建模+轻量化模块,保证实时性的情况下,检测精度再创新高!
中文题目:YOLOv13:基于超图增强自适应视觉感知的实时目标检测
论文链接:https://arxiv.org/pdf/2506.17733
代码链接:https://github.com/iMoonLab/yolov13
精简版
本文主要解决了什么问题
-
局部信息聚合与成对相关性建模的局限性:YOLOv11及更早版本依赖于卷积机制,感受野受限;而YOLOv12引入的区域自注意力机制虽然扩展了感受野,但仅能建模成对像素之间的低阶相关性,缺乏捕捉全局多对多高阶语义相关性的能力。
-
复杂场景下的检测性能瓶颈:现有YOLO模型在处理具有遮挡、密集目标或复杂背景的图像时存在性能瓶颈,难以有效建模跨尺度和跨位置的深层语义关系。
-
模型轻量化与效率平衡问题:YOLO系列模型需要在保持高性能的同时减少参数量和计算复杂度,以适应边缘设备和实时部署需求。
本文的核心创新是什么
-
HyperACE机制(基于超图的自适应相关增强):
-
引入可学习的自适应超图结构,能够动态建模多顶点之间的高阶视觉相关性,克服传统手工阈值设定的不鲁棒性。
-
结合低阶与高阶相关性建模,实现多层次的特征增强。
-
-
FullPAD范式(全流程聚合与分发):将HyperACE提取的相关增强特征在整个网络流程中进行多阶段聚合与分发,提升信息流动性和表示协同能力,显著改善梯度传播。
-
轻量化模块设计:使用深度可分离卷积替代普通卷积,提出DS-C3k2等模块,在几乎不损失性能的前提下显著降低参数量和FLOPs。
-
线性复杂度的消息传递机制:HyperACE中的超图卷积采用线性复杂度的设计,保证高效建模高阶相关性,避免计算爆炸。
局限性总结
-
超边数量设置依赖经验调参:虽然作者通过消融实验验证了不同超边数的影响,但最佳超边数量仍需根据模型规模手动设定,缺乏自动调节机制。
-
训练轮数影响性能稳定性:实验表明训练600个epoch效果最好,超过该轮数可能导致过拟合,说明模型可能对训练策略敏感。
-
对硬件依赖仍较强:虽然在CPU上表现尚可,但在GPU上仍需TensorRT FP16加速支持,对部署环境有一定要求。
-
未在更大规模数据集或更多任务中验证:当前实验主要集中在MS COCO和Pascal VOC,未来可在更大范围的任务(如实例分割、视频检测)中进一步验证模型迁移能力。
导读
-
研究问题:目标检测作为计算机视觉领域的核心任务之一,需要在最小延迟下实现对图像中物体的定位与分类。YOLO系列模型在实时目标检测领域占据主导地位,这得益于其卓越的准确性和计算效率。然而,YOLO11及早期版本主要依赖卷积架构进行局部信息聚合,以及YOLOv12虽然引入了基于区域的自注意力机制,但仍受限于成对像素相关性的建模能力,无法捕捉全局多层次高阶相关性,在复杂场景中表现存在瓶颈。因此,如何突破这些限制以提升检测精度和鲁棒性,成为亟待解决的问题。
-
研究难点:现有方法在建模全局高阶相关性时面临多个挑战:首先,卷积操作受固定感受野的限制,难以捕捉跨空间位置和尺度的语义关联;其次,自注意力机制虽能扩展感受野,但其高昂的计算成本迫使使用局部区域计算作妥协,导致全局感知不足;最后,传统图结构仅能建模成对相关性,而超图虽然具备多对多高阶相关性建模能力,但现有方法依赖手工设置阈值来构建超边,难以适应复杂场景并易引发冗余建模,从而影响检测精度和鲁棒性。
-
解决方案:为应对上述挑战,作者提出了基于超图的自适应相关性增强(HyperACE)机制,该机制能够自适应地利用潜在的高阶相关性,克服了以往方法仅限于基于超图计算的成对相关性建模的局限性,实现了高效的跨位置和跨尺度的特征融合与增强。随后,作者基于HyperACE提出了全流程聚合与分发(FullPAD)范式,通过将相关性增强特征分发至整个流程,有效实现了网络内的细粒度信息流与表征协同。最后,作者提出利用深度可分离卷积替代普通的宽卷积,并设计了一系列模块,在牺牲性能的前提下显著降低了参数量和计算复杂度。
1. 引言
实时目标检测长期以来一直是计算机视觉研究的前沿领域,旨在以最小的延迟定位和分类图像中的目标,这对工业异常检测、自动驾驶和视频监控等广泛应用至关重要。近年来,单阶段CNN检测器在这一领域占据主导地位,将区域 Proposal 、分类和回归集成到一个统一的端到端框架中。其中,YOLO(You Only Look Once)系列因其推理速度和准确性的出色平衡而成为主流。
从早期的YOLO版本到最近的YOLO11模型,以卷积为核心的架构被采用,旨在通过不同设计的卷积层提取图像特征并实现目标检测。最新的YOLOv12进一步利用基于区域的自注意力机制来增强模型的表征能力:
-
一方面,卷积操作在固定感受野内进行局部信息聚合,因此建模能力受限于卷积核大小和网络深度。
-
另一方面,尽管自注意力机制扩展了感受野,但其高计算成本需要以基于局部区域的计算作为权衡,从而阻碍了充分的全局感知和建模。
此外,自注意力机制可以被视为在完全连接的语义图上对成对像素相关性的建模,这本质上限制了其仅捕捉二元相关性的能力,并阻止其表征和聚合多对多的高阶相关性。因此,现有YOLO模型的结构限制了其建模全局高阶语义相关性的能力,导致在复杂场景中存在性能 瓶颈。超图可以建模多对多的高阶相关性。与传统图不同,超图中的每条超边连接多个顶点,从而能够建模多个顶点之间的相关性。一些研究[19]-[21]已经证明了使用超图来建模视觉任务(包括目标检测)中多像素高阶相关性的必要性和有效性。然而,现有方法仅使用手动设置的阈值参数值,根据像素特征距离来确定像素是否相关,即特征距离低于特定阈值的像素被视为相关。这种手动建模范式难以应对复杂场景,导致额外的冗余建模,从而限制了检测精度和鲁棒性。
为解决上述挑战,作者提出YOLOv13,一种新型实时突破性端到端目标检测器。作者提出的YOLOv13模型将传统的基于区域的成对交互建模扩展为全局高阶相关建模,使网络能够感知跨空间位置和尺度的深层语义相关性,从而显著提升复杂场景下的检测性能。具体而言,为克服现有方法中手工超边构建导致的鲁棒性和泛化能力限制,作者提出了一种基于超图的自适应相关增强机制,命名为HyperACE。HyperACE将多尺度特征图中的像素作为顶点,并采用可学习的超边构建模块自适应地探索顶点之间的高阶相关性。然后,利用具有线性复杂度的消息传递模块,在高层相关性的指导下有效聚合多尺度特征,以实现复杂场景的有效视觉感知。
此外,HyperACE还集成了低阶相关建模,以实现完整的视觉感知。基于HyperACE,作者提出了一种包含全流程聚合与分配范式的YOLO架构,命名为FullPAD。作者提出的FullPAD使用HyperACE机制聚合 Backbone提取的多级特征,然后将相关增强特征分配到 Backbone 、 Neck 和检测Head,以实现全流程的细粒度信息流和表示协同,显著改善梯度传播并提升检测性能。最后,为在不牺牲性能的情况下减小模型尺寸和计算成本,作者提出了一系列基于深度可分离卷积的轻量级特征提取块。通过用深度可分离卷积块替换大核常规卷积块,可以实现更快的推理速度和更小的模型尺寸,从而在效率和性能之间取得更好的平衡。
为验证YOLOv13的有效性和效率,在广泛使用的MS COCO上进行了大量实验。定性和定量的实验结果表明,YOLOv13在保持轻量级的同时优于所有先前的YOLO模型及其变体。特别是,YOLOv13-N/S与YOLOv12-N/S和YOLO11-N/S相比,mAP分别提升了1.5%/0.9%和3.0%/2.2%。消融实验进一步证明了每个提出模块的有效性。
作者的贡献总结如下:
-
作者提出了YOLOv13,一种更优越的实时端到端目标检测器。YOLOv13模型使用自适应超图来探索潜在的高阶相关性,并在高阶相关性的指导下,通过有效的信息聚合和分布实现精确和鲁棒的目标检测。
-
作者提出了HyperACE机制,基于自适应超图计算来捕获复杂场景中的潜在高阶相关性,并基于相关性引导实现特征增强。
-
作者提出了一种FullPAD范式,以在整个流程中实现多尺度特征聚合与分布,从而增强信息流和表征协同。
-
作者提出了一系列基于深度可分离卷积的轻量级模块,用以替代大核数的普通卷积模块,显著减少了参数数量和计算复杂度。
-
作者在MS COCO基准数据集上进行了广泛的实验。实验结果表明,YOLOv13在保持轻量化的同时,实现了最先进的检测性能。
2. 相关工作
A. YOLO检测器的发展
自从CNN问世以来,实时目标检测技术已从以R-CNN系列为代表的分阶段流程迅速发展为以YOLO为代表的优化单阶段框架。原始YOLO首次将检测问题重新定义为单次回归问题,消除了候选框生成开销,并实现了出色的速度-精度权衡。后续的YOLO迭代版本不断优化架构和训练策略。YOLOv2通过引入基于 Anchor 框的预测和DarkNet-19 Backbone提升了精度。YOLOv3通过采用DarkNet-53和三尺度预测增强了小目标检测能力。YOLOv4至YOLOv8逐步集成了CSP、SPP、PANet、多模态支持和 Anchor-Free 框头等模块,进一步平衡了吞吐量和精度。YOLOv9和YOLOv10则专注于轻量级 Backbone和端到端部署的简化。
随后,YOLO11保留了" Backbone - Neck - Head "的模块化设计,但用更高效的C3k2单元替换了原始的C2f模块,并添加了具有部分空间注意力的卷积块(C2PSA)以增强对小型和遮挡目标的检测。最新的YOLOv12标志着注意力机制的全面集成,引入了残差高效层聚合网络(R-ELAN)结合轻量级区域注意力(A2)和闪存注意力机制,以优化内存访问,从而在保持实时性能的同时,实现高效的全局和局部语义建模,并提升鲁棒性和精度。
与此同时,一些基于YOLO的变体已经出现。YOLOR融合了显式和隐式特征以获得更丰富的表示和更强的泛化能力。YOLOX采用 Anchor-Free 头和动态标签分配来简化流程并提高小目标检测性能。YOLO-NAS利用AutoNAC进行神经架构搜索,使用Quant-Aware RepVGG和混合精度量化来优化吞吐量和小目标性能。Gold-YOLO引入了GD机制以增强多尺度特征融合能力。YOLOMS引入了带有集成全局 Query 学习的MS-Block,以及渐进式异构核大小选择策略,以最小的开销丰富多尺度表示。
然而,如前所述,当前YOLO系列模型的架构仅限于建模局部成对相关性,无法建模全局多对多高阶相关性。这限制了现有方法在复杂场景中的检测性能。
B. 高阶相关建模
自然界中普遍存在复杂的多元高阶相关性,例如神经连接和蛋白质相互作用,以及在信息科学领域,例如社交网络[31][32]。在视觉数据中,不同物体通过空间、时间和语义交互形成复杂的相关性。这些相关性可能是成对(低阶)的,也可能是更复杂基于组的(高阶)相关性。超图作为普通图的扩展,不仅可以表示成对相关性,还可以表示多元高阶相关性[33][34]。近年来,超图神经网络(HGNNs)已成为建模此类高阶相关性的主要工具[35]-[38]。Feng等人[39]提出了频域HGNNs,在视觉检索任务中展示了其优势。Gao等人[40]进一步提出了带有空间超图卷积算子的HGNN+,增强了HGNN的适用性。最近,Feng等人[38]开创性地将HGNN集成到检测模型中,证明了高阶相关性建模对于检测的必要性。然而,该方法仅使用手工制作的固定参数作为阈值,将特征距离小于阈值的像素判定为相关,导致相关性建模精度和鲁棒性不足。
为解决上述挑战,作者提出一种基于超图的自适应相关增强机制,该机制通过自适应利用潜在相关性,高效地建模跨位置和跨尺度的语义交互。该机制克服了现有超图计算范式因手工超参数设置而导致的鲁棒性不足问题,以及现有YOLO系列模型中缺乏全局高阶相关建模的问题。
3. 方法
在本节中介绍了YOLOv13方法。在III-A节中,作者介绍了所提出模型的整体网络架构。然后,在III-B节和III-C节中,分别介绍了所提出的基于超图的自适应相关增强机制以及全流程聚合-分配范式的详细理念与结构。最后,在III-D节中,作者介绍了所提出的轻量级特征提取模块的架构。
A. 整体架构
之前的YOLO系列遵循"Backbone Neck Head"计算范式,这本质上限制了信息的有效传递。相比之下,YOLOv13通过基于超图的自适应相关增强(HyperACE)机制,在传统YOLO架构中实现了全流程特征聚合与分配(FullPAD),从而提升了模型性能。因此,YOLOv13在整个网络中实现了细粒度信息流与表征协同,能够改善梯度传播并显著提升检测性能。
-
整体架构:YOLOv13模型首先使用类似以往工作的骨干网络提取多尺度特征图,但将大核卷积替换为轻量级DS-C3k2块。不同于传统YOLO方法直接将特征输入到颈部网络,该模型通过HyperACE模块进行跨尺度跨位置特征高阶相关性自适应建模和特征增强。随后,FullPAD范式通过三个独立隧道将相关性增强的特征分配到骨干与颈部、颈部内部层以及颈部与头部之间的连接,以实现更好的信息流。
-
HyperACE机制:HyperACE包含两个核心组件,即基于C3AH模块的全局高阶感知分支和基于DS-C3k块的局部低阶感知分支。在全局高阶感知分支中,使用自适应超图计算以线性复杂度对高阶视觉相关性进行建模;在局部低阶感知分支中,则依赖于DS-C3k块捕捉细粒度的局部信息。
-
FullPAD范式:FullPAD收集来自骨干网络的多尺度特征图并将其输入HyperACE,然后通过不同FullPAD隧道将增强特征重新分配到整个管道中的不同位置。这种设计实现了细粒度的信息流动和表示协同,显著改善了梯度传播并增强了检测性能。
B. 实现自适应超图计算
为实现高效且鲁棒的跨尺度跨位置相关建模与特征增强,作者提出了一种基于超图的自适应相关增强机制。如图2所示,HyperACE包含两个核心组件,即基于C3AH模块的全局高阶感知分支,该分支使用自适应超图计算以线性复杂度对高阶视觉相关进行建模,以及基于DS-C3k块局部低阶感知分支。在接下来的小节中,作者将分别介绍自适应超图计算、C3AH模块以及HyperACE的整体设计。
-
自适应超图计算:为了有效且高效地对视觉特征中的高阶相关进行建模,并实现相关引导的特征聚合与增强,作者提出了一种新颖的自适应超图计算范式。与传统使用手动预定义参数基于特征相似性构建超边的手动超图建模方法不同,YOLOv13自适应地学习每个顶点对每个超边的参与程度,使该计算范式更加鲁棒和高效。传统的超图计算范式更适用于非欧几里得数据,例如社交网络,因为它包含显式的连接关系,而自适应超图计算范式更有利于计算机视觉任务。
-
自适应超边生成:此阶段专注于从输入视觉特征动态建模相关性以生成超边,并估计每个顶点对每个超边的参与程度。具体而言,首先使用全局平均池化和最大池化生成上下文向量,然后通过映射层生成全局偏移,添加可学习的全局原型以获得动态超边原型。最终,归一化顶点查询向量和原型之间的相似性,得到连续参与矩阵。
-
超图卷积:在生成自适应超边后,进行超图卷积以实现特征聚合和增强。每个超边首先收集所有顶点的特征并应用线性投影形成超边特征,然后将超边特征传播回顶点以更新其表示形式。
B. 轻量化特征提取块
-
深度可分离卷积:在YOLOv13中,利用大核深度可分离卷积作为基本单元设计了一系列轻量级特征提取块,显著减少了参数数量和计算复杂度而不影响模型性能。具体而言,DSConv块首先应用标准深度可分离卷积层提取特征,然后利用批归一化和SiLU激活函数获取输出。
-
DS-Bottleneck结构:DS-Bottleneck块串联两个DSConv块,其中第一个块是固定的3×3深度可分离卷积,第二个块是大核(k×k)深度可分离卷积。如果输入和输出具有相同的通道数,会添加残差跳跃连接以保留低频信息。
-
DS-C3k和DS-C3k2结构:DS-C3k块继承自标准CSP-C3结构,输入特征先通过1×1卷积层减少特征通道数,然后由n个级联的DS-Bottleneck块处理。同时,一个横向1×1卷积分支应用于输入特征,最后沿通道维度拼接两种特征并通过1×1卷积层恢复特征通道。DS-C3k2块源自C3k2结构,首先应用1×1卷积层统一通道,然后将特征分为两部分,一部分馈入多个DS-C3k模块,另一部分通过快捷连接。最终输出被拼接并通过1×1卷积层融合。
4. 实验
为验证YOLOv13模型的有效性和效率,作者进行了广泛的实验。在第四节A中,介绍了详细的实验设置。然后,在第四节B中,将YOLOv13与其他现有的实时目标检测方法进行比较,以证明YOLOv13的有效性。最后,在第四节C中,进行了消融实验,以证明每个提出模块的有效性。
A. 实验设置
-
数据集:作者使用MS COCO数据集,这是目标检测任务中最广泛采用的基准数据集,用于评估YOLOv13模型以及其他最先进的实时检测器。MS COCO数据集的训练集(Train2017)包含约118,000张图像,验证集(Val2017)包含约5,000张图像,涵盖了自然场景中的80个常见物体类别。在作者的实现中,所有方法均在Train2017子集上进行训练,并在Val2017子集上进行测试。
随着YOLO系列的不断发展,具有更强泛化能力的通用模型变得越来越重要。为此,作者在评估中包含了跨领域泛化,并将其纳入分布偏移的范畴。作为补充基准,作者选择了Pascal VOC 2007数据集,该数据集的训练集和验证集共计5,011张图像,测试集包含4,952张图像,涵盖20个常见物体类别。为评估跨领域泛化能力,所有方法均使用在MS COCO数据集上训练的模型,直接在Pascal VOC 2007测试集上进行评估。
2. 实现细节:与之前的YOLO模型类似,YOLOv13系列包含四个变体:Nano(N)、Small(S)、Large(L)和Extra-Large(X)。对于N、S、L和X模型,超边数分别设置为4、8、8和12。对于所有变体,作者使用256的批处理大小训练模型600个epoch。初始学习率为0.01,并使用SGD作为优化器,这与YOLO11和YOLOv12模型保持一致。作者采用线性衰减调度器,并在前3个epoch内应用线性预热。训练过程中,输入图像大小设置为640X640。作者采用与之前YOLO版本相同的数据增强技术,包括Mosaic和Mixup。作者分别使用4和8块RTX 4090 GPU训练YOLOv13-N和YOLOv13-S,并分别使用4和8块A800 GPU训练YOLOv13-L和YOLOv13-X。此外,遵循之前YOLO系列的标准化做法,作者使用TensorRT FP16在单个Tesla T4 GPU上评估所有模型的延迟。此外,需要注意的是,为确保公平和严格的比较,作者使用官方设置在与作者YOLOv13模型相同的硬件平台上重新生成了之前YOLO11和YOLOv12(v1.0版本)的所有变体。
B. 与其他方法的比较
表1 展示了在 MS COCO 数据集上的定量比较结果。YOLOv13与之前的 YOLO 系列模型进行了比较。如前所述,作者的 YOLOv13 模型与 YOLO11 和 YOLOv12 模型使用相同的 GPU 进行训练,而现有方法使用其官方代码和训练参数进行训练。从表中可以看出,YOLOv13 模型的所有变体均实现了最先进的性能,同时保持了轻量化。
与先前的YOLOv12模型相比,Nano、Small、Large和Extra-Large模型分别提高了APval50:95指标1.5%、0.9%、0.4%和0.4%,并提高了APv5al0指标1.8%、1.0%、0.9%和0.9%。此外,与基于ViT的方法相比,YOLOv13模型在更少参数和更低计算复杂度的情况下也能实现更好的检测精度。
C. 消融研究
-
FullPAD和HyperACE:为验证FullPAD范式和HyperACE机制的有效性和必要性,作者评估了当FullPAD将特征分配到不同位置时,所提出的YOLOv13-Small模型的性能。定量结果如表3所示。具体而言,当FullPAD不分配任何特征时,相当于移除了所提出的HyperACE,在此设置下的结果分别降低了0.9%和1.1%。这一结果表明了自适应相关增强的有效性。此外,当FullPAD仅将增强特征分配到 Backbone - Neck (图2中的左侧FullPAD隧道)、 Neck - Head (图2中的中间FullPAD隧道)和 Neck - Head (图2中的右侧FullPAD隧道)时,与完整模型相比,
分别降低了0.2%、0.3%和0.4%。这些结果表明了作者提出的FullPAD范式的必要性。
-
超边数量:为验证超边数量
对模型性能的影响,作者设置了不同的超边数量并测试了YOLOv13-S模型的性能。表4展示了定量结果。从表4中可以看出,较少的超边会导致模型参数更少和计算量更小,但也导致性能下降。这是由于场景相关性建模不足所致。当超边数量增加到16时,检测性能仍然有所提升,但也带来了额外的参数和计算成本。其他模型变体也观察到了类似的结果。因此,作者将N、S、L和X模型的超边数量分别设置为4、8、8和12,以平衡性能和计算复杂度。
-
DS模块:为验证所提出的DS系列模块的有效性和效率,作者验证了在YOLOv13-N和Small模型中用普通卷积替换DS系列模块的性能和FLOPs。定量结果如表5所示。从表中可以看出,用作者提出的DS系列模块替换普通卷积模块仅导致
下降0.1%,
完全没有下降,FLOPs分别减少1.1G和4.2G,参数数量分别减少0.6M和2.2M(针对Nano和Small模型)。这些结果证明了作者提出的DS系列模块的效率和有效性。
-
训练轮数:表6展示了训练轮数对模型性能的影响。作者对Nano和Small模型使用不同数量的训练轮数进行了性能验证。从表中可以看出,当训练600轮时,模型性能最佳,即YOLOv13 Nano和Small模型在P50:95指标上的性能分别达到4.16%和48.0%。更多的训练轮数会导致过拟合和性能下降。
-
不同硬件平台的延迟:表7展示了YOLOv13在不同硬件平台上的推理延迟。对于YOLOv13的Nano模型,在RTX 4090和Tesla T4 GPU上的推理延迟分别为1.25 ms和1.97 ms。考虑到无GPU的部署条件,Nano模型在CPU(Intel Xeon Platinum 8352V)上也能实现25 FPS(39.97 ms)的推理速度。对于性能更好的Small模型,其在Tesla T4 GPU上的推理延迟仍低于3 ms。对于YOLOv13的Extra-Large模型,其在Tesla T4 GPU上的推理延迟为14.67 ms,而在4090 GPU上仅为3.1 ms。这些结果表明了YOLOv13的效率。
5. 结论
-
主要发现:YOLOv13提出了一种基于超图的自适应相关性增强机制,能够自适应探索潜在的全局高阶相关性,并基于相关性引导实现多尺度特征融合和增强。通过FullPAD范式将相关性增强的特征分布到整个网络,有效地促进了信息流动,实现了准确的物体检测。
-
创新贡献:引入了HyperACE机制,通过自适应超图计算捕获复杂场景中的潜在高阶相关性,实现了基于相关性引导的特征增强。提出了FullPAD范式,实现在整个管道中的多尺度特征聚合和分布,增强了信息流动和表示协同。设计了一系列基于深度可分离卷积的轻量化块,在保持准确性的同时显著减少了参数数量和FLOPs。
-
研究意义:YOLOv13在广泛使用的MS COCO基准上进行了大量实验,定量和定性结果表明该方法在较低计算复杂度下实现了最先进的性能。这些成果不仅提升了实时目标检测任务的性能,还为后续研究提供了新的思路和技术手段。