YOLO训练

最新推荐文章于 2025-10-09 12:56:02 发布

原创

最新推荐文章于 2025-10-09 12:56:02 发布 · 1.8w 阅读

81 ·

CC 4.0 BY-SA版权

文章标签：

#YOLO #darknet #物体检测

这篇博客详细介绍了如何训练YOLO模型，包括准备训练数据，如转换Pascal VOC、MSCOCO、ImageNet数据，以及自定义数据的转换。此外，还讨论了配置文件的准备、多GPU训练技巧、训练过程的可视化和模型验证。作者提供了转换脚本和训练过程中的注意事项，如学习率调整和损失曲线的可视化。

准备训练数据

使用darknet训练自己的YOLO模型需要将数据转成darknet需要的格式，每张图片对应一个.txt的label文件，文件格式如下：

<object-class> <x> <y> <width> <height>

object-class是类的索引，后面的4个值都是相对于整张图片的比例。

x是ROI中心的x坐标，y是ROI中心的y坐标，width是ROI的宽，height是ROI的高。

我需要用到Pascal VOC、MSCOCO、ImageNet和自己标记的一些图片。
混用这些数据集有一个严重的问题，有一些需要标记的物体没有被标记。
如ImageNet的200种物体中有iPod并做了标记，而MSCOCO中有一些图片中有iPod却没有标记出来，这会导致模型的精度下降。该问题可以通过对这部分图片重新标记来解决（工作量很大）；也可以修改损失函数，对不同数据集的image计算不同的损失，同时针对不同数据集中的数据使用不同的object_scale和noobject_scale。

整合这些数据集首先要准备一个list，list中列出了要识别的物体。
如paul_list.txt

0,ambulance
1,apple
2,automat
3,backpack
4,baggage
5,banana
6,baseball
7,basketball
8,bed
9,bench

转换Pascal VOC

darknet作者提供了voc_label.py脚本来实现该功能，我们只需修改脚本中的classes为我们需要的classes即可，然后在VOCdevkit的父目录执行voc_label.py即可。

classes = ["ambulance", "apple", "automat", "backpack", "baggage", "banana", "baseball", "basketball", "bed","bench"]

转换MSCOCO

查看coco的80种物体有哪些是我们需要的，制作coco_list.txt，格式为,。如：

1,apple
3,backpack
5,banana
8,bed
9,bench

安装MSCOCO提供的python API库，然后执行coco_label.py。
coco_label.py见github。
https://github.com/PaulChongPeng/darknet/blob/master/tools/coco_label.py

执行脚本前需要修改dataDir和classes为自己的COCO数据集路径和coco_list.txt路径

# coding=utf-8
# 使用说明
# 需要先安装coco tools
# git clone https://github.com/pdollar/coco.git
# cd coco/PythonAPI
# make install(可能会缺少相关依赖，根据提示安装依赖即可)
# 执行脚本前需在train2014和val2014目录下分别创建JPEGImages和labels目录，并将原来train2014和val2014目录下的图片移到JPEGImages下
# COCO数据集的filelist目录下会生成图片路径列表
# COCO数据集的子集的labels目录下会生成yolo需要的标注文件


from pycocotools.coco import COCO
import shutil
import os


# 将ROI的坐标转换为yolo需要的坐标
# size是图片的w和h
# box里保存的是ROI的坐标（x，y的最大值和最小值）
# 返回值为ROI中心点相对于图片大小的比例坐标，和ROI的w、h相对于图片大小的比例
def convert(size, box):
    dw = 1. / size[0]
    dh = 1. / size[1]
    x = box[0] + box[2] / 2.0
    y = box[1] + box[3] / 2.0
    w = box[2]
    h = box[3]
    x = x * dw
    w = w * dw
    y = y * dh
    h = h * dh
    return (x, y, w, h)


# 获取所需要的类名和id
# path为类名和id的对应关系列表的地址（标注文件中可能有很多类，我们只加载该path指向文件中的类）
# 返回值是一个字典，键名是类名，键值是id
def get_classes_and_index(path):
    D = {}
    f = open(path)
    for line in f:
        temp = line.rstrip().split(',', 2)
        print("temp[0]:" + temp[0] + "\n")
        print("temp[1]:" + temp[1] + "\n")
        D[temp[1]] = temp[0]
    return D


dataDir = '/mnt/large4t/pengchong_data/Data/COCO'  # COCO数据集所在的路径
dataType = 'train2014'  # 要转换的COCO数据集的子集名
annFile = '%s/annotations/instances_%s.json' % (dataDir, dataType)  # COCO数据集的标注文件路径
classes = get_classes_and_index('/mnt/large4t/pengchong_data/Tools/Yolo_paul/darknet/data/coco_list.txt')

# labels 目录若不存在，创建labels目录。若存在，则清空目录
if not os.path.exists('%s/%s/labels/' % (dataDir, dataType)):
    os.makedirs('%s/%s/labels/' % (dataDir, dataType))
else:
    shutil.rmtree('%s/%s/labels/' % (dataDir, dataType))
    os.makedirs('%s/%s/labels/' % (dataDir, dataType))

# filelist 目录若不存在，创建filelist目录。
if not os.path.exists('%s/filelist/' % dataDir):
    os.makedirs('%s/filelist/' % dataDir)

coco = COCO(annFile)  # 加载解析标注文件
list_file = open('%s/filelist/%s.txt' % (dataDir, dataType), 'w')  # 数据集的图片list保存路径

imgIds = coco.getImgIds()  # 获取标注文件中所有图片的COCO Img ID
catIds = coco.getCatIds()  # 获取标注文件总所有的物体类别的COCO Cat ID

for imgId in imgIds:
    objCount = 0  # 一个标志位，用来判断该img是否包含我们需要的标注
    print('imgId :%s' % imgId)
    Img = coco.loadImgs(imgId)[0]  # 加载图片信息
    print('Img :%s' % Img)
    filename = Img['file_name']  # 获取图片名
    width = Img['width']  # 获取图片尺寸
    height = Img['height']  # 获取图片尺寸
    print('filename :%s, width :%s ,height :%s' % (filename, width, height))
    annIds = coco.getAnnIds(imgIds=imgId, catIds=catIds, iscrowd=None)  # 获取该图片对应的所有COCO物体类别标注ID
    print('annIds :%s' % annIds)
    for annId in annIds:
        anns = coco.loadAnns(annId)[0]  # 加载标注信息
        catId = anns['category_id']  # 获取该标注对应的物体类别的COCO Cat ID
        cat = coco.loadCats(catId)[0]['name']  # 获取该COCO Cat ID对应的物体种类名
        # print 'anns :%s' % anns
        # print 'catId :%s , cat :%s' % (catId,cat)

        # 如果该类名在我们需要的物体种类列表中，将标注文件转换为YOLO需要的格式
        if cat in classes:
            objCount = objCount + 1
            out_file = open('%s/%s/labels/%s.txt' % (dataDir, dataType, filename[:-4]), 'a')
            cls_id = classes[cat]  # 获取该类物体在yolo训练中的id
            box = anns['bbox']
            size = [width, height]
            bb = convert(size, box)
            out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')
            out_file.close()

    if objCount > 0:
        list_file.write('%s/%s/JPEGImages/%s\n' % (dataDir, dataType, filename))

list_file.close()

转换ImageNet

我使用的是ILSVRC2016的数据，查看200种物体中有哪些是我们需要的，然后制作imagenet_list.txt。

需要注意，ImageNet的标注文件中的object name使用的物体的WordNetID，所以imagenet_list.txt中需要使用WordNetID，如：

1,n07739125     
3,n02769748  
5,n07753592   
6,n02799071 
7,n02802426      
9,n02828884

为了方便获取WordNetID在ImageNet中的物体名词（paul_list.txt中的名词未必和ImageNet中的一致），可以制作一个imagenet_map.txt，如：

1,apple,n07739125     
3,backpack,n02769748  
5,banana,n07753592   
6,baseball,n02799071 
7,basketball,n02802426      
9,bench,n02828884

制作imagenet_list.txt和imagenet_map.txt需要知道WordNetID和名词间的映射关系，有两个办法。

离线版：

从ImageNet下载words.txt（WordNetID和名词间的映射）和gloss.txt（WordNetID对应的名词的定义）,然后查询。如果没有梯子，国内访问ImageNet龟速，文件被我备份在GitHub。
https://github.com/PaulChongPeng/darknet/blob/32dddd8509de4bf57cad0aa330160d57d33d0c66/data/words.txt
https://github.com/PaulChongPeng/darknet/blob/32dddd8509de4bf57cad0aa330160d57d33d0c66/data/gloss.txt

在线版：

访问 http://image-net.org/challenges/LSVRC/2015/browse-det-synsets 。请自备梯子，不然慢的令人发指。

点击需要查询的名词，如Volleyball，会跳转到对应的网页，我们需要的是网页地址后的wnid。如 http://imagenet.stanford.edu/synset?wnid=n04540053 。

制作好list后，将imagenet_to_yolo.py放在ILSVRC2016/bject_detection/ILSVRC目录下，并将Data文件夹重命名为JPEGImages（因为darknet找图片对应的标记文件是直接替换JPEGImages为labels，图片后缀名替换为txt）。修改classes为自己的list路径后直接运行脚本即可。

imagenet_to_yolo.py 我放在了GitHub上：

https://github.com/PaulChongPeng/darknet/blob/master/tools/imagenet_to_yolo.py

# coding=utf-8

# 使用说明
# 将该文件放在ILSVRC2016/bject_detection/ILSVRC目录下，并将Data文件夹重命名为JPEGImages
# 执行该工具，Lists目录下会生成图片路径列表
# labels目录下会生成yolo需要的标注文件

import xml.etree.ElementTree as ET
import pickle
import os
from os import listdir, getcwd
from os.path import join
import shutil


# 获取所有包含标注文件的的目录路径
def get_dirs():
    dirs = ['DET/train/ILSVRC2014_train_0006', 'DET/train/ILSVRC2014_train_0005', 'DET/train/ILSVRC2014_train_0004',
            'DET/train/ILSVRC2014_train_0003', 'DET/train/ILSVRC2014_train_0002', 'DET/train/ILSVRC2014_train_0001',
            'DET/train/ILSVRC2014_train_0000', 'DET/val']
    dirs_2013 = os.listdir('JPEGImages/DET/train/ILSVRC2013_train/')
    for dir_2013 in dirs_2013:
        dirs.append('DET/train/ILSVRC2013_train/' + dir_2013)
    return dirs


# 获取所需要的类名和id
# path为类名和id的对应关系列表的地址（标注文件中可能有很多类，我们只加载该path指向文件中的类）
# 返回值是一个字典，键名是类名，键值是id
def get_classes_and_index(path):
    D = {}
    f = open(path)
    for line in f:
        temp = line.rstrip().split(',', 2)
        D[temp[1]] = temp[0]
    return D


# 将ROI的坐标转换为yolo需要的坐标
# size是图片的w和h
# box里保存的是ROI的坐标（x，y的最大值和最小值）
# 返回值为ROI中心点相对于图片大小的比例坐标，和ROI的w、h相对于图片大小的比例
def convert(size, box):
    dw = 1. / size[0]
    dh = 1. / size[1]
    x = (box[0] + box[1]) / 2.0
    y = (box[2] + box[3]) / 2.0
    w = box[1] - box[0]
    h = box[3] - box[2]
    x = x * dw
    w = w * dw
    y = y * dh
    h = h * dh
    return (x, y, w, h)


# 将labelImg 生成的xml文件转换为yolo需要的txt文件
# image_dir 图片所在的目录的路径
# image_id图片名
def convert_annotation(image_dir, image_id):
    in_file = open('Annotations/%s/%s.xml' % (image_dir, image_id))
    obj_num = 0  # 一个标志位，用来判断该img是否包含我们需要的标注
    tree = ET.parse(in_file)
    root = tree.getroot()
    size = root.find('size')
    w = int(size.find('width').text)
    h = int(size.find('height').text)

    for obj in root.iter('object'):
        cls = obj.find('name').text
        if cls not in classes:
            continue
        obj_num = obj_num + 1
        if obj_num == 1:
            out_file = open('labels/%s/%s.txt' % (image_dir, image_id), 'w')
        cls_id = classes[cls]  # 获取该类物体在yolo训练中的id
        xmlbox = obj.find('bndbox')
        b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text),
             float(xmlbox.find('ymax').text))
        bb = convert((w, h), b)
        out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')

    if obj_num > 0:
        list_file = open('Lists/%s.txt' % image_dir.split('/')[-1], 'a')  # 数据集的图片list保存路径
        list_file.write('%s/JPEGImages/%s/%s.JPEG\n' % (wd, image_dir, image_id))
        list_file.close()


def IsSubString(SubStrList, Str):
    flag = True
    for substr in SubStrList:
        if not (substr in Str):
            flag = False

    return flag


# 获取FindPath路径下指定格式（FlagStr）的文件名（不包含后缀名）列表
def GetFileList(FindPath, FlagS

最低0.47元/天解锁文章

15 条评论

_g_y_ 2018.07.05
为什么同样的权重文件和测试文件，每次recall结果都差很多呢

sinat_40177376 2018.05.04
感谢博主，想问您一下，有没有200类的wordlist，谢谢

Bogerchen 2018.04.24
请问博主，valid命令生成打txt文件每一行是什么意思？非常感谢！

weixin9996 2018.03.23
感谢博主，另外我在进行训练的时候，nvidia-smim命令下的信息显示： pwr:usage/cap 265w/250w 大概就是这样子，意思是说使用功率会大于cap的值，然后刚训练没几分钟电脑就关机了，请问是什么原因呢？为何会超出电脑的功率呢？？？真心求解，我的电脑是gtx1080ti,电源工功率为685w...

唯一的爱好 2018.01.04
感谢博主提供的实用工具，有个小疑问，github中提供了kmeans++聚类的方法，但聚类的个数（n-anchor为5）是人为设定的也就是说究竟哪个数字能得到更好的效果还需要尝试，能否有根据聚类结果设定个数的方法，或者可视化Kmeans++的结果？
- xh56781回复唯一的爱好 2018.08.16
  [reply]jianglan0700[/reply] 您好～请问这个问题解决了吗？～我也打算做kmeans但是不知道判断标准

ts18215608990 2017.12.29
然后问题来了，，文章中说到使用recall命令时修改验证数据集的地址，我之前是使用VOC2007进行训练模型的，此处修改的地址因是VOC2007的验证集吗？文件夹中有两个txt（train.txt、val.txt）是吗？还望楼主回复一下，谢谢

ts18215608990 2017.12.29
您好，感谢您之前的回复，我测试了一下，结果如楼主所说，是终端显示时会有卡顿的现象，但是总体时间是差不多的。
- ts18215608990回复ts18215608990 2017.12.29
  [reply]u014186770[/reply] 主要不知道怎么在原回复下回复，所以只好另起一贴

ts18215608990 2017.12.19
楼主您好，我是最近才看到你这篇文章，一个问题：我按照文章的方法把训练时终端数据记录在txt中，但是导致整个训练变得很慢很慢，不知道楼主有这方面的经验没？还是我电脑配置太低了？如果不记录，整体训练还是跑得很快的。
- hrsstudy回复ts18215608990 2017.12.20
  [reply]u014186770[/reply] 确认一下，是终端里log的刷新速度变慢了吗？使用这种方式记录日志可能会出现终端里的log打印时看起来有点卡，但是不影响训练速度，来不及打印的log会跳过。

考拉不是大叔 2017.11.07
partial命令在yolo官方网站里有介绍, 希望问这些问题的先好好看看官网内容,谢谢

wujin19 2017.11.06
博主您好，非常感谢您的文章和GitHub上的工程。我是想测试一下自己训练出来的weights的mAP值。根据您文章中的category那部分，我能得到每一类的Recall和precision值。可是之后的AP值怎么算呢？（我知道是画出图来，然后求面积，可是无奈不会操作）。或者博主有没有更好的方法直接可以得到mAP值呢？感激不尽！！
- hrsstudy回复wujin19 2017.11.07
  [reply]wujin19[/reply] voc和imagenet的数据集里包含mAP的计算脚本，把inference结果输出成脚本指定的格式，然后在matlab里根据注释改几个路径，然后运行就可以了。