小白学视觉 | YOLOv13来了!清华大学提出基于超图增强的实时目标检测

本文来源公众号“小白学视觉”,仅用于学术分享,侵权删,干货满满。

原文链接:YOLOv13来了!清华大学提出基于超图增强的实时目标检测

实时目标检测领域YOLO系算法迎来新成员YOLOv13, 标配N/S/L/X不同规模的模型,性能更强,调用简单,可通过Ultralytics包直接测试和训练。

今日arxiv论文 YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception 介绍了YOLOv13的具体设计和实验结果,该研究由多个顶尖机构的团队共同完成,主要作者包括Mengqi Lei, Siqi Li, Yihong Wu, Han Hu, You Zhou, Xinhu Zheng, Guiguang Ding, Shaoyi Du, Zongze Wu, 和 Yue Gao。他们分别来自清华、太原理工、北京理工、深圳大学、香港科技大学(广州)、西安交通大学等研究机构。

图片

YOLO系列算法的进化路径

YOLO(You Only Look Once)系列因其在速度与精度之间的卓越平衡,已成为实时目标检测领域的标杆。其发展历程体现了目标检测技术从追求速度到兼顾精度,再到精细化结构设计的演进。

  • 早期探索 (YOLOv1 - YOLOv3):YOLOv1首次将目标检测视为一个单次回归问题,实现了端到端的快速检测。YOLOv2通过引入锚框(anchor-based predictions)和DarkNet-19骨干网络提升了检测精度。YOLOv3则采用了更深的DarkNet-53骨干网和三尺度预测(three-scale predictions),显著增强了对小目标的检测能力。

  • 集成与优化 (YOLOv4 - YOLOv8):这一时期的YOLO模型广泛集成了当时主流的先进技术。例如,CSP(Cross Stage Partial)、SPP(Spatial Pyramid Pooling)、PANet等模块被陆续引入,并逐渐开始采用无锚框(anchor-free)的检测头,以进一步平衡模型的吞吐量与准确率。

  • 效率与部署 (YOLOv9 - YOLOv11):近期版本更侧重于模型的轻量化和端到端部署的便捷性。例如,YOLOv11在保持“骨干-颈部-头部”模块化设计的同时,采用了更高效的C3k2单元,并加入了带局部空间注意力的卷积块(C2PSA),以增强对小尺寸和被遮挡目标的检测效果。

  • 引入注意力机制 (YOLOv12):YOLOv12标志着注意力机制的全面融入,它引入了轻量级的区域注意力(Area Attention, A2)和Flash Attention,旨在以高效的方式实现全局和局部语义建模,提升了模型的鲁棒性和精度。

研究目的与动机

尽管YOLO系列不断进化,但论文作者指出,现有的模型在信息建模上仍存在共性局限。无论是YOLOv11及之前的卷积架构,还是YOLOv12引入的自注意力机制,其信息聚合方式本质上都受限于以下两点:

  • 局部性限制:卷积操作在固定的感受野内聚合信息。

  • 成对关系建模:自注意力机制的核心是建立特征间的成对关系(pairwise correlation)。

这两种模式都难以捕捉多个实体之间共同形成的、更复杂的“多对多”高阶关联(high-order correlations),导致模型在处理具有复杂空间和语义关系的场景时性能受限。因此,本研究的核心目的在于,通过引入能有效建模全局、高阶视觉关联的机制,来提升YOLO系列模型在复杂场景下的检测精度和鲁棒性。

提出的方法

为实现上述目标,论文提出了YOLOv13模型,其核心包含三大创新:

图片

a. 基于超图的自适应相关性增强机制 (HyperACE)

YOLOv13的最核心创新,旨在有效捕捉特征间潜在的高阶关联。

图片

  • 基本原理:该机制借鉴了超图(Hypergraph)的理论。与普通图中一条边只能连接两个顶点不同,超图中的一条“超边”(Hyperedge)可以同时连接多个顶点,这使其天然适合建模“多对多”的关系。

  • 自适应超边生成:为克服传统超图方法依赖手工设定参数的不足,HyperACE设计了一个可学习的超边生成模块。该模块能根据输入的视觉特征,自适应地学习并构建超边,动态地探索不同特征顶点之间的潜在关联。

  • 超图卷积:在生成自适应超边后,通过超图卷积操作进行特征聚合与增强。每条超边先从其连接的所有顶点处聚合信息,形成高阶特征;随后,这些高阶特征再被传播回各个顶点,从而完成对顶点特征的更新与增强。

b. 全流程聚合与分发范式 (FullPAD)

为了最大化HyperACE增强后特征的效用,作者设计了FullPAD这一新的网络信息流范式。

  • 工作流程:FullPAD首先从骨干网络中汇集多尺度特征,并将其送入HyperACE模块进行处理。随后,通过专门的“FullPAD通道”,将这些经过高阶关联增强的特征重新分发至网络的多个关键位置,包括骨干网与颈部的连接处、颈部网络内部、以及颈部与检测头的连接处。

  • 设计目的:这种设计旨在打破传统YOLO架构中单向的信息流,实现全网络范围内的信息协同与精细化流动,从而改善梯度传播并提升最终的检测性能。

c. 深度可分离卷积轻量化设计

为保证模型的高效率,YOLOv13采用深度可分离卷积(Depthwise Separable Convolution, DSConv)作为基础单元,设计了一系列轻量化模块(如DSConv, DS-Bottleneck, DS-C3k, DS-C3k2),用于替代标准的大核卷积。这些模块被广泛应用于模型的骨干和颈部网络中,在基本不牺牲模型性能的前提下,显著降低了参数量和计算复杂度(FLOPs)。

图片

主要实验结果

研究团队在MS COCO数据集上进行了广泛的实验,以验证YOLOv13的有效性。

  • 性能对比:与现有模型相比,YOLOv13在不同尺寸上均表现出优势。例如,YOLOv13-N的mAP达到了41.6%,相较于YOLOv12-N和YOLOv11-N分别提升了1.5%和3.0%。

    图片

  • 模块有效性验证:消融实验证明了核心模块的必要性。在YOLOv13-S模型中,若移除HyperACE模块,其AP50:95指标会下降0.9%。这证实了高阶关联建模的有效性。

    图片

  • 轻量化效果:实验表明,使用DS系列模块替换标准卷积,可以在mAP几乎不变的情况下,大幅减少模型复杂度。

    图片

  • 泛化能力测试:YOLOv13同样在PASCAL VOC 2007测试集上表现出色,验证了其跨域泛化能力。

    图片

总结与资源

YOLOv13通过引入自适应超图计算,有效地增强了模型对全局高阶视觉关系的建模能力。结合创新的FullPAD信息流范式和深度可分离卷积的轻量化设计,该模型在保持高效率的同时,实现了当前最优的检测性能。

开源贡献:作者已将YOLOv13的代码和预训练模型开源,便于社区研究和使用。

  • 论文链接:https://arxiv.org/abs/2506.17733

  • 代码链接:https://github.com/iMoonLab/yolov13

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值