深度学习-卷积神经网络-目标检测之YOLOV3模型-代码运行训练自己的数据集并进行检测实践3

2、生成标准VOC2007数据集文件夹模板
下载VOC2007数据集：下载地址https://pjreddie.com/projects/，从中找到Pascal VOC Dataset Mirror，点击进入下载VOC 2007中的Train/Validation Data (439 MB)
将下载后的文件解压，解压后的文件夹名称为VOCdevkit，删除该文件夹下的所有文件，仅保留里面的所有文件夹（可右击文件夹-属性查看文件夹中文件数是否为0）
或者不用下载VOC2007数据集，直接按照VOCdevkit文件夹目录结构建好

3、拷贝图片
将VOCdevkit文件夹模板拷贝到前篇文章项目KerasYolo3Test2下
将自己的图片库拷贝到VOCdevkit/VOC2007/JPEGImages目录下

4、标注图片
使用LabelImg工具标注图片
OpenDir--打开VOCdevkit/VOC2007/JPEGImages目录
Change Save Dir--将标注后生成的xml文件设置保存目录为VOCdevkit/VOC2007/Annotations目录
Create Rectbox--对图片目录中打开的图片标注矩形框并标注类别，标注完成后点击Save自动生成xml文件保存到前面设置的保存目录中

LabelImg工具下载地址：https://download.youkuaiyun.com/download/firemonkeycs/13038056

5、生成数据集txt文件，从图片库中按比例随机选取生成测试集、验证集、训练集
将CreateTxt.py文件放置在VOCdevkit\VOC2007目录下,CreateTxt.py文件代码如下：

import os
import random

trainval_percent = 0.1  #表示测试集和验证集所占总图片的比例。
train_percent = 0.9    #测试集所占测试集与验证集总和的比例
xmlfilepath = 'Annotations'  # xml文件的路径
txtsavepath = 'ImageSets\Main' # 新生成文件的保存路径

#    os.listdir() 方法用于返回指定的文件夹包含的文件或文件夹的名字的列表。这个列表以字母顺序。
#   它不包括 '.' 和'..' 即使它在文件夹中。
total_xml = os.listdir(xmlfilepath) #返回Annotations文件夹下的文件和文件夹的列表；得到一个xml文件名列表

num = len(total_xml) #xml文件的总数，也就是列表的长度
list = range(num) #相当于range(0,num,1),这里的0是首位(默认是0)、num是末位、1为跳跃间距(默认是1)；但不包括num。
                  #得到一个[0,1,2,..,num-1]的列表。


tv = int(num * trainval_percent) #xml文件中的交叉验证集数
tr = int(tv * train_percent) #xml文件中的训练集数，注意，我们在前面定义的是训练集占验证集的比例。
#print(tv,tr)  #打印出tv、tr进行验证


#random.sample()函数是从指定序列中随机获取指定长度的片段，原有序列不会改变。有两个参数，第一个参数代表指定序列，第二个参数是需获取的片段长度。
#这里相当于获得验证集和训练集数。
trainval = random.sample(list, tv)  #随机在list列表中,获得长度为tv的验证集样本列表;
train = random.sample(trainval, tr) #随机在trainval列表,中获得长度为tr的验证集样本列表;
# print(trainval ,'\n',tr)  #打印出trainval、train进行验证

#以可写的方式将数据写入文件中
ftrainval = open('ImageSets/Main/trainval.txt', 'w')    #得到交叉验证集
ftest = open('ImageSets/Main/test.txt', 'w')    #得到测试集
ftrain = open('ImageSets/Main/train.txt', 'w')  #得到训练集
fval = open('ImageSets/Main/val.txt', 'w') #得到验证集

#三层循环
#第一层：在总的xml文件列表中

for i in list:
    #name = total_xml[i]
    name = total_xml[i][:-4]+'\n' #[:-4]用到了切片;因为文件名为 xx.xml ,[:-4]相当于从第一位截取到倒数第四位,即保留了 xx部分
    # print(name)
    #在交叉验证集列表中
    if i in trainval:
        #将符合条件的xml文件名的写入交叉验证集中
        ftrainval.write(name)
        #在训练集列表中
        if i in train:
            #将符合条件的xml文件名写入到测试集中
            ftest.write(name)
        else:
            #不符合条件的xml文件名写入验证集中
            fval.write(name)
    #不在交叉验证集中，那么就在训练集中
    else:
        ftrain.write(name)

#关闭文件
ftrainval.close()
ftrain.close()
fval.close()
ftest.close()

run运行CreateTxt.py文件生成数据集txt文件到VOCdevkit\VOC2007\ImageSets\Main目录下

6，生成YOLOV3模型所需的txt文件

修改voc_annotation.py中的classes = ["", ""]为自己要训练的类别

run运行voc_annotation.py