YOLOv8单目标检测

用于个人记录,好记性不如烂笔头

其实整体训练的流程和V5差不多,只是V8不需要下载工程文件了,而是可以通过安装ultralytics,然后进行调用

pip install ultralytics

1.数据集

​ 数据集的制作方式和V5完全一致,唯一的区别是我们需要自己创建一个yaml的配置文件,该文件是为了让V8读取到数据。而这个yaml的格式是跟V5的类似的。

v5的操作链接如下,里面包含了数据集制作方式,和xml转txt的详细说明,可以参考一下:
YOLOv5单目标识别

本次我要识别的是一个数字“8”,图片和层级目录如下:
在这里插入图片描述
在这里插入图片描述

下面的图片是V5版本的数据的配置

在这里插入图片描述

而V8的yaml的配置如下

在这里插入图片描述

train: [F:\yolodata\8\train.txt]
val: [F:\yolodata\8\val.txt]


# number of classes
nc: 1

# class names
names: ['eight']

2.模型训练

准备好数据集以及配置文件后,就可以开启模型训练了。因为不需要下载工程文件了,所以我们创建一个v8_train.py文件,然后将要配置的参数写上即可

注意:需要自己去官方去下载预训练的模型,这里我用的yolo8s.pt

from ultralytics import YOLO


if __name__ == '__main__':
    model=YOLO(r"F:\yolodata\8\yolov8s.pt")
    model.train(
        data=r"F:\yolodata\8\eight.yaml",
        imgsz=320,
        device=0,
        epochs=10,
        name="eight8",
        batch=64,
        fliplr=0,#图像左右翻转(概率)
    )

当执行上面的代码后,当运行结束后,提示运行结果保存的位置在:Results saved to runs\detect\eight83。我这里运行的结果是保存在v8_train.py的同一个文件夹中的.

运行结果图片
在这里插入图片描述

这里我是把数据集,配置文件,训练的py,预训练的模型都放在一个文件夹,所以看起来有点乱,其实可以分成两个文件夹,数据集放到另一个文件夹。训练好的模型就在runs文件夹中
在这里插入图片描述

3.转onnx并推理

(1)输出结果解释
from ultralytics import YOLO


if __name__ == '__main__':
    model_path=r"F:\yolodata\8\runs\detect\eight83\weights\best.pt"
    model=YOLO(model_path)
    model.export(format='onnx',imgsz=320)# 自己模型的配置,我的图片大小是320的,官方的是640
    

​ 可以看到转成onnx后,onnx文件存放的位置也是在weights文件夹中,我们将onnx模型打开,他的输出是tensor: float32[1,5,2100],这里需要解释一下为什么他的输出会是这样的。我们对比一下官方的预训练模型

我们自己的模型如下
在这里插入图片描述

官方的模型如下

官服的输出是float32[1,84,8400]

from ultralytics import YOLO

if __name__ == '__main__':
    model_path=r"F:\yolodata\8\yolov8s.pt"
    model=YOLO(model_path)
    model.export(format='onnx',imgsz=640)#官方的数据集是640

在这里插入图片描述

解释如下:

​ 我们知道YOLO是有三个不同尺度的检测头(anchor),分别是80x80,40x40,20x20,这个三个size是怎么计算出来的呢,是因为yolo使用三个尺寸的下采样比例分别是8,16,32,官方使用640大小的图片,所以640分别除以8,16,32得到的就是80 40 20。

​ 由于特征图中的每个网格产生一个预测结果,(80x80+40x40+20x20)所以是8400个预测结果。官方使用的640x640的图片,而我们的图片大小是320x320,hw都分别都缩小了2倍,自然计算出来的结果就会少了2x2=4倍。8400/4=2100

与v5的不同,v5是每个网格会产生3个预测结果,计算出来是25200。

输出解释

tensor: float32[1,5,2100],代表什么呢?

1表示batch_size

5分别表示xywh和类别的得分,这里只有一个类,所以只有一个得分(官方的有80类所以是84)

2100表示检测框的数量

​ 如果我们把[1,5,2100]展开则是这样的:

​ ([[[x,x1,x2,x3…x2100],

​ [y,y1,y2,y3…y2100],

​ [w,w1,w2,w3…w2100],

​ [h,h1,h2,h3…h2100],

​ [s,s1,s2,s3…s2100]

​ ]]])

​ 所以我们只需要根据最后一行,将分数最大的那一列xywh拿出来即可

(2)推理

​ 从onnx中我们知道它的输入要求shape为(1, 3, 320, 320) float32类型,并且yolo在对图片处理中还进行了归一化处理,所以我们推理的时候也要对输入的图片做相应的处理

import numpy as np
import os
import onnxruntime as ort
import cv2



img_path=r"F:\yolodata\8\Frames\155.png"
onn_path=r"F:\yolodata\8\runs\detect\eight83\weights\best.onnx"
provider=ort.get_available_providers()[1 if ort.get_device() == 'GPU' else 0]

ort_session=ort.InferenceSession(
                                onn_path,
                                providers=[provider])
# 图片处理
img=cv2.imread(img_path)
img_dst=img[np.newaxis,:,:,:].astype(np.float32)
img_dst=img_dst.transpose(0,3,1,2)/255.0
# print(img.shape,img.dtype) # (1, 3, 320, 320)  float32

# 推理
resluts=ort_session.run(output_names=["output0"],
                        input_feed={"images":img_dst})

# print(resluts[0].shape) # (1, 5, 2100)
best_index=resluts[0][:,-1,:].argmax() # 1750


position=resluts[0][:,:,best_index]
cx,cy,ww,hh,ss=position[0][0],position[0][1],position[0][2],position[0][3],position[0][4]
new_img=cv2.imread(img_path)
cv2.putText(new_img,str(round(ss,3)),(int(cx-ww/2),int(cy-hh/2)-5),cv2.FONT_HERSHEY_SIMPLEX,1,(0,255,255),2)
cv2.rectangle(new_img,(int(cx-ww/2),int(cy-hh/2)),(int(cx+ww/2),int(cy+hh/2)),(0,0,255),2)

# 显示两张图片
combined_img=np.hstack((img,new_img))
cv2.imshow("combined_img",combined_img)
cv2.waitKey(0)
cv2.destroyAllWindows()

代码执行后图片显示效果如下
在这里插入图片描述

4.YOLOv8参数说明

model.train()参数说明**

参考链接:https://blog.youkuaiyun.com/qq_42452134/article/details/135168930

参数 (Key)默认值 (Value)描述 (Description)
model如果预训练就指向预训练模型模型文件路径,例如 yolov8n.pt, yolov8n.yaml
data执行数据集地址数据文件路径,例如 coco128.yaml
epochs100训练的周期数
timeNone训练的小时数,如果提供了此参数将覆盖周期数
patience50早停训练等待的最大无改善周期数
batch16每批次的图像数量(-1 表示自动批次)
imgsz640输入图像的尺寸
saveTRUE是否保存训练检查点和预测结果
save_period-1每 x 个周期保存一次检查点(如果小于 1 则禁用)
cacheFALSE是否使用数据加载的缓存,可选 True/ram, disk 或 False
deviceNone运行设备,例如 cuda device=0 或 device=0,1,2,3 或 device=cpu
workers8数据加载的工作线程数(如果使用DDP则每个RANK)
projectNone项目名称
nameNone实验名称
exist_okFALSE是否覆盖已存在的实验
pretrainedTRUE是否使用预训练模型(布尔值)或从其中加载权重的模型(字符串)
optimizer‘auto’使用的优化器,选项包括 [SGD, Adam, Adamax, AdamW, NAdam, RAdam, RMSProp, auto]
verboseFALSE是否打印详细输出
seed0随机种子,用于可重复性
deterministicTRUE是否启用确定性模式
single_clsFALSE将多类别数据作为单一类别训练
rectFALSE矩形训练,每批次根据最小填充整理
cos_lrFALSE使用余弦学习率调度器
close_mosaic10在最后几个周期禁用马赛克增强(0 为禁用)
resumeFALSE从最后一个检查点恢复训练
ampTRUE自动混合精度(AMP)训练
fraction1训练集中用于训练的数据集比例(默认为 1.0,即全部图像)
profileFALSE在训练期间用于日志记录器的 ONNX 和 TensorRT 速度分析
freezeNone在训练期间冻结前 n 层,或冻结层索引列表
lr00.01初始学习率(例如 SGD=1E-2, Adam=1E-3)
lrf0.01最终学习率(初始学习率 * 最终学习率)
momentum0.937SGD 动量/Adam beta1
weight_decay0.0005优化器权重衰减 5e-4
warmup_epochs3热身周期数(小数也可)
warmup_momentum0.8热身期间的初始动量
warmup_bias_lr0.1热身期间的初始偏置学习率
box7.5边界框损失增益
cls0.5类别损失增益(根据像素缩放)
dfl1.5DFL 损失增益
pose12姿态损失增益(仅姿态)
kobj2关键点对象损失增益(仅姿态)
label_smoothing0标签平滑(小数表示比例)
nbs64标称批次大小
overlap_maskTRUE训练期间遮罩是否重叠(仅限分割训练)
mask_ratio4遮罩下采样比率(仅限分割训练)
dropout0是否使用 dropout 正则化(仅限分类训练)
valTRUE训练期间是否进行验证/测试
plotsFALSE训练/验证期间是否保存图表和图像

model.export()参数说明

参考链接:https://blog.youkuaiyun.com/qq_42761751/article/details/140825169

ArgumentTypeDefaultDescription
formatstr‘torchscript’导出模型的目标格式,例如 ‘onnx’、‘torchscript’、‘tensorflow’ 或其他格式,用于定义与各种部署环境的兼容性
imgszint or tuple640模型输入的期望图像大小。可以是整数,或者用于特定尺寸的元组(高度,宽度)
kerasboolFALSE启用导出为Keras格式的TensorFlow SavedModel,提供与TensorFlow服务和API的兼容性
optimizeboolFALSE在导出到TorchScript时应用移动设备优化,可能会减少模型大小并提高性能
halfboolFALSE启用FP16(半精度)量化,减少模型大小,并可能在支持的硬件上加速推理
int8boolFALSE启用INT8量化,进一步压缩模型并加速推理,精度损失最小,主要适用于边缘设备
dynamicboolFALSE允许 ONNX 和 TensorRT 导出支持动态输入尺寸,提高处理不同图像尺寸的灵活性
simplifyboolFALSE通过 onnxslim 简化 ONNX 导出的模型图,可能提高性能和兼容性
opsetintNone指定 ONNX opset 版本,以确保与不同的 ONNX 解析器和运行时兼容。如果未设置,将使用最新支持的版本
workspacefloat4设置 TensorRT 优化的最大工作空间大小(以 GiB 为单位),以平衡内存使用和性能
nmsboolFALSE为 CoreML 导出添加非极大值抑制(NMS),这是准确和高效检测后处理的关键
batchint1指定导出模型的批量推理大小或在预测模式下导出模型将同时处理的最大图像数量

完结!!!

在这里插入图片描述

### YOLOv8目标检测模型输出标签格式说明 YOLOv8 是一种先进的目标检测框架,其输出通常包括多个字段来描述检测到的对象及其位置。以下是有关 YOLOv8 输出标签格式的具体内容: #### 1. **基本输出结构** YOLOv8输出是一个列表对象 `results`,其中每个元素代表一张输入图像的结果。每张图像的检测结果可以通过访问 `result.boxes` 来获取,它包含了所有检测框的信息。 #### 2. **检测框的核心属性** 对于每一个检测到的目标,YOLOv8 提供以下核心信息[^3]: - **xywh (中心坐标)**:表示边界框的中心点 `(x, y)` 和宽度高度 `(w, h)`,位为像素。 - **xyxy (角点坐标)**:表示边界框左上角和右下角的坐标 `(x1, y1, x2, y2)`,位为像素。 - **class (类别索引)**:表示该目标所属类别的索引值,对应于数据集中的分类标签。 - **confidence (置信度分数)**:表示模型对该目标检测的信心程度,取值范围为 `[0, 1]`。 这些信息可以通过如下方式提取: ```python from ultralytics import YOLO model = YOLO("yolov8n.pt") source = 'path_to_image.jpg' results = model.predict(source) for result in results: boxes = result.boxes.cpu().numpy() # 转换为 numpy 数组以便处理 for box in boxes: xyxy = box.xyxy[0] # 左上角和右下角坐标 class_id = int(box.cls[0]) # 类别索引 confidence = box.conf[0] # 置信度分数 ``` #### 3. **自定义显示选项** 通过设置参数可以控制输出的内容形式。例如,在预测时隐藏标签或置信度分数: ```python results = model.predict(source, save=True, show_conf=False, show_labels=False) ``` 这里 `show_conf=False` 表示不显示置信度分数,而 `show_labels=False` 则用于隐藏类别标签。 #### 4. **保存结果** 当调用 `predict()` 方法并启用 `save=True` 参数时,YOLOv8 将自动将检测结果保存至指定目录。默认情况下,标注文件将以 `.txt` 格式存储,每行记录一个检测框的数据,具体格式如下: ``` <class_index> <x_center> <y_center> <width> <height> ``` 以上数值均被归一化到 `[0, 1]` 范围内,基于图片尺寸计算得出[^1]。 --- ### 总结 YOLOv8输出标签主要由边界框的位置、类别索引以及置信度组成。开发者可以根据需求调整显示样式,并通过配置参数灵活控制输出内容的形式与细节。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值