YOLOV8多模态（可见光+红外光目标检测任务，基于Ultralytics官方代码实现）

最新推荐文章于 2025-05-18 17:32:43 发布

@M_J_Y@

最新推荐文章于 2025-05-18 17:32:43 发布

阅读量4.6k

点赞数 52

分类专栏：目标检测文章标签： 1024程序员节 YOLO 目标检测人工智能 python

本文链接：https://blog.youkuaiyun.com/qq_45950599/article/details/143216526

版权

目标检测专栏收录该内容

14 篇文章

订阅专栏

YOLOV8多模态

YOLOV8多模态目标检测

各位读者麻烦给个star或者fork，求求了。
代码地址

项目主要介绍：
同时训练可见光和红外图片，需要改动网络的结构，对每层的特征进行融合。同时需要对图片质量进行评价，给出自适应的融合权重。
在nn/moudle/block中融合模块中可修改融合策略。具体细节请阅读代码，主要修改有数据增强、读取部分、模型前向传播等。

YOLOV8多模态目标检测

前言：环境配置要求

torch 2.3.1
torchvision 0.18.1
Python 3.8.19
tensorrt 8.5.3.1

1. 数据集DroneVehicle数据集(可见光+热红外)

DroneVehicle数据集下载地址

DroneVehicle 数据集由无人机采集的 56,878 张图像组成，其中一半是 RGB 图像，其余是红外图像。我们为这 5 个类别制作了丰富的注释，其中包含定向边界框。其中，汽车在 RGB 图像中有 389,779 个注释，在红外图像中有 428,086 个注释，卡车在 RGB 图像中有 22,123 个注释，在红外图像中有 25,960 个注释，公共汽车在 RGB 图像中有 15,333 个注释，在红外图像中有 16,590 个注释，厢式车在 RGB 图像中有 11,935 个注释，在红外图像中有 12,708 个注释，货车在 RGB 图像中有 13,400 个注释，以及红外图像中的 17,173 个注释。
在 DroneVehicle 中，为了在图像边界处对对象进行注释，我们在每张图像的顶部、底部、左侧和右侧设置了一个宽度为 100 像素的白色边框，因此下载的图像比例为 840 x 712。在训练我们的检测网络时，我们可以执行预处理以去除周围的白色边框并将图像比例更改为 640 x 512。
在这里插入图片描述

2. 数据集文件格式(labeles: YOLO格式)

datasets
├── image
│   ├── test
│   ├── train
│   └── val
├── images
│   ├── test
│   ├── train
│   └── val
└── labels
    ├── test
    ├── train
    └── val

images 保存的是可见光图片
image 保存的是热红外图片
labels 公用一个标签(一般来说使用红外图片标签)

3. 权重文件下载

目标检测权重

模型	尺寸 ^(像素)	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{A100 TensorRT (ms)}	参数 ^(M)	FLOPs ^(B)
YOLOv8n	640	37.3	80.4	0.99	3.2	8.7
YOLOv8s	640	44.9	128.4	1.20	11.2	28.6
YOLOv8m	640	50.2	234.7	1.83	25.9	78.9
YOLOv8l	640	52.9	375.2	2.39	43.7	165.2
YOLOv8x	640	53.9	479.1	3.53	68.2	257.8

旋转框检测权重

模型	尺寸 ^(像素)	mAP^test 50	速度 ^{CPU ONNX (ms)}	速度 ^{A100 TensorRT (ms)}	参数 ^(M)	FLOPs ^(B)
YOLOv8n-obb	1024	78.0	204.77	3.57	3.1	23.3
YOLOv8s-obb	1024	79.5	424.88	4.07	11.4	76.3
YOLOv8m-obb	1024	80.5	763.48	7.61	26.4	208.6
YOLOv8l-obb	1024	80.7	1278.42	11.83	44.5	433.8
YOLOv8x-obb	1024	81.36	1759.10	13.23	69.5	676.7