YOLOv13技术介绍:基于超图增强的自适应视觉感知实时目标检测器

请添加图片描述
Github链接:https://github.com/iMoonLab/yolov13
论文链接:YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception

技术简介 💡

在这里插入图片描述

YOLOv13——新一代实时检测器,具有前沿的性能和效率。YOLOv13 家族包含四种不同规模的变体:Nano、Small、Large 和 X-Large,其核心技术包括:

  • HyperACE: 基于超图的自适应相关性增强 (Hypergraph-based Adaptive Correlation Enhancement)

    • 将多尺度特征图中的像素视为超图顶点。
    • 采用可学习的超边构建模块,自适应地探索顶点之间的高阶相关性。
    • 利用一个线性复杂度的消息传递模块,在高阶相关性的指导下有效聚合多尺度特征,从而实现对复杂场景的有效视觉感知。
      在这里插入图片描述
  • FullPAD: 全流程聚合与分发范式 (Full-Pipeline Aggregation-and-Distribution Paradigm)

    • 使用 HyperACE 聚合主干网络 (backbone) 的多尺度特征,并在超图空间中提取高阶相关性。
    • FullPAD 范式进一步利用三个独立的通道,将这些经过相关性增强的特征分别转发到主干网络与颈部 (neck) 的连接处、颈部内部各层之间,以及颈部与头部 (head) 的连接处。通过这种方式,YOLOv13 实现了整个模型信息流的细粒度控制和表示能力的协同增强。
    • FullPAD 显著改善了梯度传播,并提升了检测性能。
  • 轻量级基于深度可分离卷积的系列模块

    • 将大核卷积替换为基于深度可分离卷积(DSConv, DS-Bottleneck, DS-C3k, DS-C3k2)构建的模块,在保持感受野的同时,极大地减少了参数量和计算量。
    • 在不牺牲精度的前提下,实现了更快的推理速度。
      在这里插入图片描述

YOLOv13 将超图计算与端到端的信息协同无缝结合,提供了一个更准确、更鲁棒、更高效的实时检测解决方案。

模型效果 🏆

1. MS COCO 基准测试

表1. 在 MS COCO 数据集上与其他 SOTA 实时目标检测器的量化比较

模型FLOPs (G)参数量(M)mAPAP50AP75延迟 (ms)
YOLOv6-3.0-N11.44.737.052.72.74
Gold-YOLO-N12.15.639.655.72.97
YOLOv8-N8.73.237.452.640.51.77
YOLOv10-N6.72.338.553.841.71.84
YOLO11-N6.52.638.654.241.61.53
YOLOv12-N6.52.640.156.043.41.83
YOLOv13-N6.42.541.657.845.11.97
YOLOv6-3.0-S45.318.544.361.23.42
Gold-YOLO-S46.021.545.462.53.82
YOLOv8-S28.611.245.061.848.72.33
RT-DETR-R1860.020.046.563.84.58
RT-DETRv2-R1860.020.047.964.94.58
YOLOv9-S26.47.146.863.450.73.44
YOLOv10-S21.67.246.363.050.42.53
YOLO11-S21.59.445.862.649.82.56
YOLOv12-S21.49.347.164.251.02.82
YOLOv13-S20.89.048.065.252.02.98
YOLOv6-3.0-L150.759.651.869.29.01
Gold-YOLO-L151.775.151.868.910.69
YOLOv8-L165.243.753.069.857.78.13
RT-DETR-R50136.042.053.171.36.93
RT-DETRv2-R50136.042.053.471.66.93
YOLOv9-C102.125.353.070.257.86.64
YOLOv10-L120.324.453.270.157.27.31
YOLO11-L86.925.352.369.255.76.23
YOLOv12-L88.926.453.070.057.97.10
YOLOv13-L88.427.653.470.958.18.63
YOLOv8-X257.868.254.071.058.812.83
RT-DETR-R101259.076.054.372.713.51
RT-DETRv2-R101259.076.054.372.813.51
YOLOv10-X160.429.554.471.359.310.70
YOLO11-X194.956.954.271.059.111.35
YOLOv12-X199.059.154.471.159.312.46
YOLOv13-X199.264.054.872.059.814.67

2. 可视化效果

YOLOv10-N/S, YOLO11-N/S, YOLOv12-N/S 和 YOLOv13-N/S 的可视化示例:
在这里插入图片描述

在这里插入图片描述

自适应超边的代表性可视化示例。第一列和第二列中的超边主要关注前景中目标之间的高阶交互。第三列主要关注背景与部分前景之间的高阶交互。这些超边的可视化可以直观地反映 YOLOv13 建模的高阶视觉关联。

在这里插入图片描述

快速上手 🚀

1. 安装依赖

wget https://github.com/Dao-AILab/flash-attention/releases/download/v2.7.3/flash_attn-2.7.3+cu11torch2.2cxx11abiFALSE-cp311-cp311-linux_x86_64.whl
conda create -n yolov13 python=3.11
conda activate yolov13
pip install -r requirements.txt
pip install -e .

YOLOv13 支持 Flash Attention 加速。

2. 模型验证

YOLOv13-N
YOLOv13-S
YOLOv13-L
YOLOv13-X

使用以下代码在 COCO 数据集上验证 YOLOv13 模型。请确保将 {n/s/l/x} 替换为所需的模型规模。

from ultralytics import YOLO

model = YOLO('yolov13{n/s/l/x}.pt')  # 替换为所需的模型规模

3. 模型训练

使用以下代码训练 YOLOv13 模型。请确保将 yolov13n.yaml 替换为您想要的模型配置文件路径,并将 coco.yaml 替换为您的 COCO 数据集配置文件。

from ultralytics import YOLO

model = YOLO('yolov13n.yaml')

# 训练模型
results = model.train(
  data='coco.yaml',
  epochs=600, 
  batch=256, 
  imgsz=640,
  scale=0.5,  # S:0.9; L:0.9; X:0.9
  mosaic=1.0,
  mixup=0.0,  # S:0.05; L:0.15; X:0.2
  copy_paste=0.1,  # S:0.15; L:0.5; X:0.6
  device="0,1,2,3",
)

# 在验证集上评估模型性能
metrics = model.val('coco.yaml')

# 在单张图片上执行目标检测
results = model("path/to/your/image.jpg")
results[0].show()

4. 模型推理

使用以下代码通过 YOLOv13 模型进行目标检测。请确保将 {n/s/l/x} 替换为所需的模型规模。

from ultralytics import YOLO

model = YOLO('yolov13{n/s/l/x}.pt')  # 替换为所需的模型规模
model.predict()

5. 模型导出

使用以下代码将 YOLOv13 模型导出为 ONNX 或 TensorRT 格式。请确保将 {n/s/l/x} 替换为所需的模型规模。

from ultralytics import YOLO
model = YOLO('yolov13{n/s/l/x}.pt')  # 替换为所需的模型规模
model.export(format="engine", half=True)  # 或 format="onnx"

相关项目 🔗

  • 该代码基于 Ultralytics 实现。
  • 其他关于超图计算的工作:
    • “Hypergraph Neural Networks”: [论文] [代码]
    • “HGNN+: General Hypergraph Nerual Networks”: [论文] [代码]
    • “SoftHGNN: Soft Hypergraph Neural Networks for General Visual Recognition”: [论文] [代码]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值