YOLOv11训练自己数据集_笔记1

山山而川_R

已于 2024-12-03 10:08:08 修改

阅读量2.5k

点赞数 8

分类专栏： YOLO 香橙派文章标签：深度学习人工智能

于 2024-10-10 10:45:35 首次发布

本文链接：https://blog.youkuaiyun.com/m0_60657960/article/details/142814207

版权

香橙派同时被 2 个专栏收录

26 篇文章

订阅专栏

YOLO

9 篇文章

订阅专栏

一、前言

yolov11代码地址

分析YOLO11的关键改进点
YOLO11 相比之前版本，带来了五大关键改进：

增强特征提取：通过改进Backbone和Neck架构，新增了C3k2和C2PSA等组件，提升了目标检测的精度。
优化效率和速度：重新设计了架构，优化了训练流程，提高了处理速度。
更高精度与更少参数：YOLO11m 在 COCO 数据集上实现更高 mAP，且参数减少 22%。
多环境适应性：支持边缘设备、云平台和 NVIDIA GPU。
广泛任务支持：支持分类、检测、跟踪、实例分割、关键点姿态估计和旋转目标检测

YOLO11 是 Ultralytics 最新的实时目标检测器，凭借更高的精度、速度和效率重新定义了可能性。

除了传统的目标检测外，YOLO11 还支持目标跟踪、实例分割、姿态估计、OBB定向物体检测（旋转目标检测）等视觉任务

yolov11可以执行任务：

YOLO11：用于经典的目标检测任务。
YOLO11-seg：用于实例分割，识别和分割图像中的对象。
YOLO11-pose：用于关键点姿态估计，即确定人体的关键点（如关节位置）。
YOLO11-obb：用于定向检测，可以识别并确定具有方向性物体的边界框（例如倾斜的目标物体）。
YOLO11-cls：用于分类，负责对图像中的对象进行类别识别

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

二、环境搭建

项目环境如下：

解释器：python==3.9

框架：Ultralytics 8.3.9 🚀 Python-3.9.0 torch-2.4.1+cu121 CUDA:0 (NVIDIA GeForce RTX 4050 Laptop GPU, 5905MiB)

系统：Ubuntu22.04

IDEA：Pycharm

安装要求：

Python 版本要求：Python 版本需为 3.8 及以上，支持 3.8、3.9、3.10、3.11、3.12 这些版本
PyTorch 版本要求：需要 PyTorch 版本不低于 1.8。
安装命令：

安装 Ultralytics 包可以使用 pip 命令
这将会自动安装所有必要的依赖项和包

pip install ultralytics

清华源加速

-i https://pypi.tuna.tsinghua.edu.cn/simple/

pip install ultralytics -i https://pypi.tuna.tsinghua.edu.cn/simple/

安装完成

使用

from ultralytics import YOLO

测试一下ultralytics是否安装成功了

三、数据集收集

自己收集数据集

1、安装标注工具labelimg

pip install labelimg -i https://pypi.tuna.tsinghua.edu.cn/simple

2、输入labelImg启动

四、YOLOV11-main代码获取

代码地址：GitHub - ultralytics/ultralytics: Ultralytics YOLO11 🚀

（这个是国内网址和Git上有区别，不全的话你需要科学上网直接访问github才可以）

2、权重模型获取

权重模型官网：https://docs.ultralytics.com/tasks/detect/

官网指导教程地址：https://docs.ultralytics.com/zh

（包括安装及使用）

五、模型训练

1、进入虚拟环境

split_train_val.py内容

# coding:utf-8

import os
import random
import argparse

parser = argparse.ArgumentParser()
#xml文件的地址，根据自己的数据进行修改 xml一般存放在Annotations下
parser.add_argument('--xml_path', default='Annotations', type=str, help='input xml label path')
#数据集的划分，地址选择自己数据下的ImageSets/Main
parser.add_argument('--txt_path', default='ImageSets/Main', type=str, help='output txt label path')
opt = parser.parse_args()

trainval_percent = 1.0
train_percent = 0.9
xmlfilepath = opt.xml_path
txtsavepath = opt.txt_path
total_xml = os.listdir(xmlfilepath)
if not os.path.exists(txtsavepath):
    os.makedirs(txtsavepath)

num = len(total_xml)
list_index = range(num)
tv = int(num * trainval_percent)
tr = int(tv * train_percent)
trainval = random.sample(list_index, tv)
train = random.sample(trainval, tr)

file_trainval = open(txtsavepath + '/trainval.txt', 'w')
file_test = open(txtsavepath + '/test.txt', 'w')
file_train = open(txtsavepath + '/train.txt', 'w')
file_val = open(txtsavepath + '/val.txt', 'w')

for i in list_index:
    name = total_xml[i][:-4] + '\n'
    if i in trainval:
        file_trainval.write(name)
        if i in train:
            file_train.write(name)
        else:
            file_val.write(name)
    else:
        file_test.write(name)

file_trainval.close()
file_train.close()
file_val.close()
file_test.close()

执行：

python split_train_val.py

ImageSets/Main里边生成四个txt

2、voc_label.py里面改成自己的类

# -*- coding: utf-8 -*-
import xml.etree.ElementTree as ET
import os
from os import getcwd

sets = ['train', 'val', 'test']
classes = ['bike','carsgraz','person']   # 改成自己的类别
abs_path = os.getcwd()
print(abs_path)

def convert(size, box):
    dw = 1. / (size[0])
    dh = 1. / (size[1])
    x = (box[0] + box[1]) / 2.0 - 1
    y = (box[2] + box[3]) / 2.0 - 1
    w = box[1] - box[0]
    h = box[3] - box[2]
    x = x * dw
    w = w * dw
    y = y * dh
    h = h * dh
    return x, y, w, h

def convert_annotation(image_id):
    in_file = open('./Annotations/%s.xml' % (image_id), encoding='UTF-8')
    out_file = open('./labels/%s.txt' % (image_id), 'w')
    tree = ET.parse(in_file)
    root = tree.getroot()
    size = root.find('size')
    w = int(size.find('width').text)
    h = int(size.find('height').text)
    for obj in root.iter('object'):
        difficult = obj.find('difficult').text
        cls = obj.find('name').text
        if cls not in classes or int(difficult) == 1:
            continue
        cls_id = classes.index(cls)
        xmlbox = obj.find('bndbox')
        b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text),
             float(xmlbox.find('ymax').text))
        b1, b2, b3, b4 = b
        # 标注越界修正
        if b2 > w:
            b2 = w
        if b4 > h:
            b4 = h
        b = (b1, b2, b3, b4)
        bb = convert((w, h), b)
        out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')

wd = getcwd()
for image_set in sets:
    if not os.path.exists('./labels/'):
        os.makedirs('./labels/')
    image_ids = open('./ImageSets/Main/%s.txt' % (image_set)).read().strip().split()
    list_file = open('./%s.txt' % (image_set), 'w')
    for image_id in image_ids:
        list_file.write(abs_path + '/images/%s.png\n' % (image_id)) # 注意你的图片格式，如果是.jpg记得修改
        convert_annotation(image_id)
    list_file.close()

执行：

python voc_label.py

（在datasets文件夹下）产生三个test train val三个txt文件

3、cd .. 回到上级目录

执行添加一个ab.yaml文件

4、把下载好的yolo11n.pt权重文件放在同级目录下：

然后再执行

python train.py

报错：

Downloading https://ultralytics.com/assets/Arial.ttf to '/home/sxj/.config/Ultralytics/Arial.ttf'...

⚠️ Download failure, retrying 1/3 https://ultralytics.com/assets/Arial.ttf...
curl: (28) Failed to connect to github.com port 443 after 135073 ms: 连接超时

解决方法：

报错Arial.ttf下载超时

运行成功

5、运行之后在runs里面找到best.pt权重文件

拷贝一份放在主目录下，打开predict.py改成自己best.pt权重文件和测试图片路径

文件保存路径save_dir: 'runs/detect/predict'

from ultralytics import YOLO

# Load a custom model
model = YOLO("best.pt")

# 指定源图像的路径，这里假设 imgtest 是包含图像的文件夹
source = "imgtest"

# 指定检测结果保存的路径  save_dir: 'runs/detect/predict'
save_dir = ""  

# 进行预测，并将结果保存到新的文件夹中
results = model.predict(source=source, save=True, save_dir=save_dir, save_txt=True, save_conf=True)

# 打印结果信息
for result in results:
    print(result)