本文来源公众号“集智书童”,仅用于学术分享,侵权删,干货满满。
原文链接:YOLOv13震撼发布 | 超图高阶建模+轻量化模块,保证实时性的情况下,检测精度再创新高!
1. 引言
实时目标检测长期以来一直是计算机视觉研究的前沿领域,旨在以最小的延迟定位和分类图像中的目标,这对工业异常检测、自动驾驶和视频监控等广泛应用至关重要。近年来,单阶段CNN检测器在这一领域占据主导地位,将区域 Proposal 、分类和回归集成到一个统一的端到端框架中。其中,YOLO(You Only Look Once)系列因其推理速度和准确性的出色平衡而成为主流。
从早期的YOLO版本到最近的YOLO11模型,以卷积为核心的架构被采用,旨在通过不同设计的卷积层提取图像特征并实现目标检测。最新的YOLOv12进一步利用基于区域的自注意力机制来增强模型的表征能力:
-
• 一方面,卷积操作在固定感受野内进行局部信息聚合,因此建模能力受限于卷积核大小和网络深度。
-
• 另一方面,尽管自注意力机制扩展了感受野,但其高计算成本需要以基于局部区域的计算作为权衡,从而阻碍了充分的全局感知和建模。
此外,自注意力机制可以被视为在完全连接的语义图上对成对像素相关性的建模,这本质上限制了其仅捕捉二元相关性的能力,并阻止其表征和聚合多对多的高阶相关性。因此,现有YOLO模型的结构限制了其建模全局高阶语义相关性的能力,导致在复杂场景中存在性能 瓶颈。超图可以建模多对多的高阶相关性。与传统图不同,超图中的每条超边连接多个顶点,从而能够建模多个顶点之间的相关性。一些研究[19]-[21]已经证明了使用超图来建模视觉任务(包括目标检测)中多像素高阶相关性的必要性和有效性。然而,现有方法仅使用手动设置的阈值参数值,根据像素特征距离来确定像素是否相关,即特征距离低于特定阈值的像素被视为相关。这种手动建模范式难以应对复杂场景,导致额外的冗余建模,从而限制了检测精度和鲁棒性。
为解决上述挑战,作者提出YOLOv13,一种新型实时突破性端到端目标检测器。作者提出的YOLOv13模型将传统的基于区域的成对交互建模扩展为全局高阶相关建模,使网络能够感知跨空间位置和尺度的深层语义相关性,从而显著提升复杂场景下的检测性能。具体而言,为克服现有方法中手工超边构建导致的鲁棒性和泛化能力限制,作者提出了一种基于超图的自适应相关增强机制,命名为HyperACE。HyperACE将多尺度特征图中的像素作为顶点,并采用可学习的超边构建模块自适应地探索顶点之间的高阶相关性。然后,利用具有线性复杂度的消息传递模块,在高层相关性的指导下有效聚合多尺度特征,以实现复杂场景的有效视觉感知。
此外,HyperACE还集成了低阶相关建模,以实现完整的视觉感知。基于HyperACE,作者提出了一种包含全流程聚合与分配范式的YOLO架构,命名为FullPAD。作者提出的FullPAD使用HyperACE机制聚合 Backbone提取的多级特征,然后将相关增强特征分配到 Backbone 、 Neck 和检测Head,以实现全流程的细粒度信息流和表示协同,显著改善梯度传播并提升检测性能。最后,为在不牺牲性能的情况下减小模型尺寸和计算成本,作者提出了一系列基于深度可分离卷积的轻量级特征提取块。通过用深度可分离卷积块替换大核常规卷积块,可以实现更快的推理速度和更小的模型尺寸,从而在效率和性能之间取得更好的平衡。
为验证YOLOv13的有效性和效率,在广泛使用的MS COCO上进行了大量实验。定性和定量的实验结果表明,YOLOv13在保持轻量级的同时优于所有先前的YOLO模型及其变体。特别是,YOLOv13-N/S与YOLOv12-N/S和YOLO11-N/S相比,mAP分别提升了1.5%/0.9%和3.0%/2.2%。消融实验进一步证明了每个提出模块的有效性。
作者的贡献总结如下:
-
• 作者提出了YOLOv13,一种更优越的实时端到端目标检测器。YOLOv13模型使用自适应超图来探索潜在的高阶相关性,并在高阶相关性的指导下,通过有效的信息聚合和分布实现精确和鲁棒的目标检测。
-
• 作者提出了HyperACE机制,基于自适应超图计算来捕获复杂场景中的潜在高阶相关性,并基于相关性引导实现特征增强。
-
• 作者提出了一种FullPAD范式,以在整个流程中实现多尺度特征聚合与分布,从而增强信息流和表征协同。
-
• 作者提出了一系列基于深度可分离卷积的轻量级模块,用以替代大核数的普通卷积模块,显著减少了参数数量和计算复杂度。
-
• 作者在MS COCO基准数据集上进行了广泛的实验。实验结果表明,YOLOv13在保持轻量化的同时,实现了最先进的检测性能。
2. 相关工作
A. YOLO检测器的发展
自从CNN问世以来,实时目标检测技术已从以R-CNN系列为代表的分阶段流程迅速发展为以YOLO为代表的优化单阶段框架。原始YOLO首次将检测问题重新定义为单次回归问题,消除了候选框生成开销,并实现了出色的速度-精度权衡。后续的YOLO迭代版本不断优化架构和训练策略。YOLOv2通过引入基于 Anchor 框的预测和DarkNet-19 Backbone提升了精度。YOLOv3通过采用DarkNet-53和三尺度预测增强了小目标检测能力。YOLOv4至YOLOv8逐步集成了CSP、SPP、PANet、多模态支持和 Anchor-Free 框头等模块,进一步平衡了吞吐量和精度。YOLOv9和YOLOv10则专注于轻量级 Backbone和端到端部署的简化。
随后,YOLO11保留了" Backbone - Neck - Head "的模块化设计,但用更高效的C3k2单元替换了原始的C2f模块,并添加了具有部分空间注意力的卷积块(C2PSA)以增强对小型和遮挡目标的检测。最新的YOLOv12标志着注意力机制的全面集成,引入了残差高效层聚合网络(R-ELAN)结合轻量级区域注意力(A2)和闪存注意力机制,以优化内存访问,从而在保持实时性能的同时,实现高效的全局和局部语义建模,并提升鲁棒性和精度。
与此同时,一些基于YOLO的变体已经出现。YOLOR融合了显式和隐式特征以获得更丰富的表示和更强的泛化能力。YOLOX采用 Anchor-Free 头和动态标签分配来简化流程并提高小目标检测性能。YOLO-NAS利用AutoNAC进行神经架构搜索,使用Quant-Aware RepVGG和混合精度量化来优化吞吐量和小目标性能。Gold-YOLO引入了GD机制以增强多尺度特征融合能力。YOLOMS引入了带有集成全局 Query 学习的MS-Block,以及渐进式异构核大小选择策略,以最小的开销丰富多尺度表示。
然而,如前所述,当前YOLO系列模型的架构仅限于建模局部成对相关性,无法建模全局多对多高阶相关性。这限制了现有方法在复杂场景中的检测性能。
B. 高阶相关建模
自然界中普遍存在复杂的多元高阶相关性,例如神经连接和蛋白质相互作用,以及在信息科学领域,例如社交网络[31][32]。在视觉数据中,不同物体通过空间、时间和语义交互形成复杂的相关性。这些相关性可能是成对(低阶)的,也可能是更复杂基于组的(高阶)相关性。超图作为普通图的扩展,不仅可以表示成对相关性,还可以表示多元高阶相关性[33][34]。近年来,超图神经网络(HGNNs)已成为建模此类高阶相关性的主要工具[35]-[38]。Feng等人[39]提出了频域HGNNs,在视觉检索任务中展示了其优势。Gao等人[40]进一步提出了带有空间超图卷积算子的HGNN+,增强了HGNN的适用性。最近,Feng等人[38]开创性地将HGNN集成到检测模型中,证明了高阶相关性建模对于检测的必要性。然而,该方法仅使用手工制作的固定参数作为阈值,将特征距离小于阈值的像素判定为相关,导致相关性建模精度和鲁棒性不足。
为解决上述挑战,作者提出一种基于超图的自适应相关增强机制,该机制通过自适应利用潜在相关性,高效地建模跨位置和跨尺度的语义交互。该机制克服了现有超图计算范式因手工超参数设置而导致的鲁棒性不足问题,以及现有YOLO系列模型中缺乏全局高阶相关建模的问题。
3. 方法
在本节中介绍了YOLOv13方法。在III-A节中,作者介绍了所提出模型的整体网络架构。然后,在III-B节和III-C节中,分别介绍了所提出的基于超图的自适应相关增强机制以及全流程聚合-分配范式的详细理念与结构。最后,在III-D节中,作者介绍了所提出的轻量级特征提取模块的架构。
A. 整体架构
之前的YOLO系列遵循"Backbone Neck Head"计算范式,这本质上限制了信息的有效传递。相比之下,YOLOv13通过基于超图的自适应相关增强(HyperACE)机制,在传统YOLO架构中实现了全流程特征聚合与分配(FullPAD),从而提升了模型性能。因此,YOLOv13在整个网络中实现了细粒度信息流与表征协同,能够改善梯度传播并显著提升检测性能。
B. 基于超图的适应性相关增强
为实现高效且鲁棒的跨尺度跨位置相关建模与特征增强,作者提出了一种基于超图的自适应相关增强机制。如图2所示,HyperACE包含两个核心组件,即基于C3AH模块的全局高阶感知分支,该分支使用自适应超图计算以线性复杂度对高阶视觉相关进行建模,以及基于DS-C3k块局部低阶感知分支。在接下来的小节中,作者将分别介绍自适应超图计算、C3AH模块以及HyperACE的整体设计。
-
1. 自适应超图计算:为了有效且高效地对视觉特征中的高阶相关进行建模,并实现相关引导的特征聚合与增强,作者提出了一种新颖的自适应超图计算范式。与传统使用手动预定义参数基于特征相似性构建超边的手动超图建模方法不同,YOLOv13自适应地学习每个顶点对每个超边的参与程度,使该计算范式更加鲁棒和高效。传统的超图计算范式更适用于非欧几里得数据,例如社交网络,因为它包含显式的连接关系,而自适应超图计算范式更有利于计算机视觉任务。
2. C3AH用于自适应高阶相关性建模:基于自适应超图计算范式,作者进一步提出了C3AH模块以高效捕获高阶语义交互。具体而言,如图2所示,C3AH模块保留了CSP Bottleneck 分支分割机制,同时集成了自适应超图计算模块,从而实现跨空间位置的全局高阶语义聚合。
HyperACE充分利用并行全局高阶相关建模分支和局部低阶相关建模分支,同时保留Shortcut信息,实现全局-局部和高阶-低阶的多层次视觉相关感知互补。
C. 全流程聚合与分发范式
为了充分利用HyperACE获得的关联增强特征,作者进一步引入了FullPAD范式。具体而言,FullPAD从 Backbone收集多尺度特征图,并将这些特征图传递给HyperACE,然后通过不同的FullPAD通道将增强特征重新分配到 Pipeline 的各个位置,如图2所示。这种设计实现了细粒度的信息流和表示协同,显著改善了梯度传播并提升了检测性能。
D. 使用深度可分离卷积进行模型轻量化
在YOLOv13模型中,作者采用大 Kernel 深度可分离卷积(DSConv)作为基本单元来设计一系列轻量级特征提取模块,如图4所示,这显著减少了参数数量和计算复杂度,同时不牺牲模型性能。
DSConv模块首先应用标准深度可分离卷积层提取特征,然后利用批量归一化和SiLU激活函数获取输出,即通道,随后通过n级级联的DS-Bottleneck模块进行处理。同时,对输入特征应用一个横向1x1卷积分支。最后,将两个分支的特征沿通道维度进行拼接,并利用一个1x1卷积层恢复特征通道。该设计在保留CSP结构的跨通道分支的同时,集成了深度可分离的轻量级 Bottleneck 。
DS-C3k2. DS-C3k2模块源自C3k2结构。具体而言,首先应用一个1x1卷积层来统一通道。接着,将特征分成两部分,一部分输入到多个DS-C3k模块中,另一部分通过Shortcut连接。最后,将输出结果进行拼接,并通过一个1x1卷积层进行融合。
如图2所示,YOLOv13模型在Backbone和Neck中都广泛使用DS-C3k2模块作为基本特征提取模块。在HyperACE中,利用DS-C3k模块作为低阶特征提取器。该设计在所有YOLOv13模型尺寸上实现了高达30%的参数减少和高达28%的GFLOPs减少。
利用YOLOv13模型,对视觉特征中的潜在相关性进行自适应建模,并通过在整个流程中充分传播相关性增强特征,从而实现复杂场景下准确高效的目标检测。
4. 实验
为验证YOLOv13模型的有效性和效率,作者进行了广泛的实验。在第四节A中,介绍了详细的实验设置。然后,在第四节B中,将YOLOv13与其他现有的实时目标检测方法进行比较,以证明YOLOv13的有效性。最后,在第四节C中,进行了消融实验,以证明每个提出模块的有效性。
A. 实验设置
-
1. 数据集:作者使用MS COCO数据集,这是目标检测任务中最广泛采用的基准数据集,用于评估YOLOv13模型以及其他最先进的实时检测器。MS COCO数据集的训练集(Train2017)包含约118,000张图像,验证集(Val2017)包含约5,000张图像,涵盖了自然场景中的80个常见物体类别。在作者的实现中,所有方法均在Train2017子集上进行训练,并在Val2017子集上进行测试。
随着YOLO系列的不断发展,具有更强泛化能力的通用模型变得越来越重要。为此,作者在评估中包含了跨领域泛化,并将其纳入分布偏移的范畴。作为补充基准,作者选择了Pascal VOC 2007数据集,该数据集的训练集和验证集共计5,011张图像,测试集包含4,952张图像,涵盖20个常见物体类别。为评估跨领域泛化能力,所有方法均使用在MS COCO数据集上训练的模型,直接在Pascal VOC 2007测试集上进行评估。
-
2. 实现细节:与之前的YOLO模型类似,YOLOv13系列包含四个变体:Nano(N)、Small(S)、Large(L)和Extra-Large(X)。对于N、S、L和X模型,超边数M分别设置为4、8、8和12。对于所有变体,作者使用256的批处理大小训练模型600个epoch。初始学习率为0.01,并使用SGD作为优化器,这与YOLO11和YOLOv12模型保持一致。作者采用线性衰减调度器,并在前3个epoch内应用线性预热。训练过程中,输入图像大小设置为640x640。作者采用与之前YOLO版本相同的数据增强技术,包括Mosaic和Mixup。作者分别使用4和8块RTX 4090 GPU训练YOLOv13-N和YOLOv13-S,并分别使用4和8块A800 GPU训练YOLOv13-L和YOLOv13-X。此外,遵循之前YOLO系列的标准化做法,作者使用TensorRT FP16在单个Tesla T4 GPU上评估所有模型的延迟。此外,需要注意的是,为确保公平和严格的比较,作者使用官方设置在与作者YOLOv13模型相同的硬件平台上重新生成了之前YOLO11和YOLOv12(v1.0版本)的所有变体。
B. 与其他方法的比较
表1 展示了在 MS COCO 数据集上的定量比较结果。YOLOv13与之前的 YOLO 系列模型进行了比较。如前所述,作者的 YOLOv13 模型与 YOLO11 和 YOLOv12 模型使用相同的 GPU 进行训练,而现有方法使用其官方代码和训练参数进行训练。从表中可以看出,YOLOv13 模型的所有变体均实现了最先进的性能,同时保持了轻量化。
如上所述,为验证YOLOv13的泛化能力,作者在MS COCO数据集上训练了YOLOv13和之前的YOLO模型,并在Pascal VOC 2007数据集上测试所有方法。
定量结果如表2所示。从表中可以观察到,YOLOv13模型取得了令人满意的泛化性能。具体来说,与之前的模型相比,YOLOv13模型在Pascal VOC 2007数据集上表现出色。
表3展示了设置不同的FULLPAD分布位置对YOLOv13-S模型性能的影响。
C. 消融研究
从表4中可以看出,较少的超边会导致模型参数更少和计算量更小,但也导致性能下降。这是由于场景相关性建模不足所致。当超边数量增加到16时,检测性能仍然有所提升,但也带来了额外的参数和计算成本。其他模型变体也观察到了类似的结果。因此,作者将N、S、L和X模型的超边数量分别设置为4、8、8和12,以平衡性能和计算复杂度。
-
3. DS模块:为验证所提出的DS系列模块的有效性和效率,作者验证了在YOLOv13-N和Small模型中用普通卷积替换DS系列模块的性能和FLOPs。
-
4. 训练轮数:表6展示了训练轮数对模型性能的影响。作者对Nano和Small模型使用不同数量的训练轮数进行了性能验证。从表中可以看出,当训练600轮时,模型性能最佳,即YOLOv13 Nano和Small模型在P50:95指标上的性能分别达到4.16%和48.0%。更多的训练轮数会导致过拟合和性能下降。
-
5. 不同硬件平台的延迟:表7展示了YOLOv13在不同硬件平台上的推理延迟。对于YOLOv13的Nano模型,在RTX 4090和Tesla T4 GPU上的推理延迟分别为1.25 ms和1.97 ms。考虑到无GPU的部署条件,Nano模型在CPU(Intel Xeon Platinum 8352V)上也能实现25 FPS(39.97 ms)的推理速度。对于性能更好的Small模型,其在Tesla T4 GPU上的推理延迟仍低于3 ms。对于YOLOv13的Extra-Large模型,其在Tesla T4 GPU上的推理延迟为14.67 ms,而在4090 GPU上仅为3.1 ms。这些结果表明了YOLOv13的效率。
5. 结论
在本文中,作者提出了YOLOv13,一种最先进的端到端实时目标检测器。作者提出了一种基于超图的自适应相关增强机制,以自适应地探索潜在的全局高阶相关性,并基于相关指导实现多尺度特征融合与增强。相关增强特征通过作者提出的全流程聚合与分布范式在整个网络中分布,有效促进信息流,实现精确的目标检测。
此外,作者还提出了一系列基于深度可分离卷积的模块,这些模块能够在保持精度的同时显著减少参数数量和FLOPs。作者在广泛使用的MS COCO数据集上进行了大量实验。
定性和定量的结果表明,YOLOv13在计算复杂度更低的情况下实现了最先进的性能。
参考
[1]. YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception
THE END !
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。