小技巧（5）：将TT100K数据集转成VOC格式，并且用Python脚本选出45类超过100张的图片和XML

最新推荐文章于 2025-10-14 10:20:39 发布

原创

最新推荐文章于 2025-10-14 10:20:39 发布 · 9.1k 阅读

150 ·

CC 4.0 BY-SA版权

文章标签：

#python #深度学习

本文详细介绍了如何将TT100K数据集转换为符合VOC标准的格式，包括创建VOC文件夹结构、生成XML文件、删除不符合条件的图片及XML、以及生成train和val txt文件，以便于后续的图像分类任务。

上一篇：小技巧（4）：将txt中的某两列数据写入csv文件中，制作图像分类标签

一、相关准备

1.1 下载数据集

http://cg.cs.tsinghua.edu.cn/traffic-sign/data_model_code/data.zip
TT100K数据集下载下来大概19.2G，解压后的文件夹如图
在这里插入图片描述

1.2 下载代码文件

https://github.com/cqfdch/TT100K_to_VOC

1.3 将相关文件移入代码文件

在这里插入图片描述

讲TT100K中的train文件、test文件夹、annotations.json文件移入代码文件夹。

二、创建标准的VOC文件夹

import os

# 建立相关文件夹
# build voc2007 folder structure
def make_voc_dir():
    root_dir = os.getcwd()
    os.makedirs(root_dir+'/VOC2007')
    os.makedirs("VOC2007"+'/Annotations')
    os.makedirs("VOC2007" + '/JPEGImages/ ')
    os.makedirs("VOC2007"+'/ImageSets')
    os.makedirs("VOC2007"+'/ImageSets/Main')

if __name__ == '__main__':
    make_voc_dir()

在这里插入图片描述

三、生成整个数据集的XML文件

import os
import json
from lxml import etree as ET
from xml.dom import minidom
#找出训练集和测试集中的不在45类的标注图片的id
def edit_xml(objects, id, dir):
    save_xml_path = os.path.join(dir, "%s.xml" % id)  # xml

    root = ET.Element("annotation")
    # root.set("version", "1.0")  
    folder = ET.SubElement(root, "folder")
    folder.text = "none"
    filename = ET.SubElement(root, "filename")
    filename.text = id + ".jpg"
    source = ET.SubElement(root, "source")
    source.text = "none"
    owner = ET.SubElement(root, "owner")
    owner.text = "halftop"
    size = ET.SubElement(root, "size")
    width = ET.SubElement(size, "width")
    width.text = str(2048)
    height = ET.SubElement(size, "height")
    height.text = str(2048)
    depth = ET.SubElement(size, "depth")
    depth.text = "3"
    segmented = ET.SubElement(root, "segmented")
    segmented.text = "0"
    for obj in objects:  #  
        object = ET.SubElement

最低0.47元/天解锁文章

64 条评论

我会成为大神 2023.05.26
博主，我想知道第四部进行的是为什么呀？为什么要删除一部分图片呀，那些是不属于45类当中的吗？删除的图片里面是不是也有一部分是45类当中的呀，那删除的标准是什么呢？
- 我会成为大神回复a18643 2023.07.03
  我明白了
- a18643回复我会成为大神 2023.06.07
  他这个不够全面，is-tt45这个函数只把全部为45类的图片保存了，某些图片既有45类的也包涵其他类的都当成废品了，你做个二次筛选，估计会多不少

我会成为大神 2023.05.25
博主，求求了，我有一点不太理解为什么某个类别的图片能够达到180张，但是经过您文章的数据处理之后只剩下80张了，这个类别也是45类当中的，而且根据您发的这个，我训练出来只有42类

我会成为大神 2023.05.24
大神们，有没有人愿意给我解答一下下呀，为什么我生成的jpg数量和xml数量是不同的呀，这影响后续的训练结果吗？

再而衰三而竭 2023.03.06
博主你好，我看到TT100K数据集的链接已经失效了。我找到官网下载的时候发现下载下来后是空文件不知道可否请您发我一份数据集，感激不尽

m0_37203179 2023.02.27
FileExistsError: [WinError 183] 当文件已存在时，无法创建该文件。: 'VOC2007/JPEGImages/ '，博主你好，请问在运行build文件时出现这种错误应该如何解决呢?
- m0_64170169回复m0_37203179 2025.04.25
  多了一个空格
- m0_74189576回复m0_37203179 2023.09.01
  手动创建
- weixin_58082867回复m0_37203179 2023.05.16
  请问你解决了吗

FlyingAnt_ 2022.11.21
other中还有标记图像，不要了？
- 西一阿集回复FlyingAnt_ 2022.11.27
  你发个，我去借鉴借鉴
- FlyingAnt_回复西一阿集 2022.11.27
  我重写了一份》。。
- 西一阿集回复FlyingAnt_ 2022.11.27
  哎，算了，我自己从头写代码
- FlyingAnt_回复西一阿集 2022.11.26
  加一个other呗。这个demo还有要给问题，生成train.json val.json test.json的时候 id 和 image_id应该是int类型，他写成str了，导致cocotool解析不了 if root in [os.path.join(self.parent_path, 'test'), os.path.join(self.parent_path, 'train'), os.path.join(self.parent_path, 'other')]:
- 西一阿集回复FlyingAnt_ 2022.11.26
  兄弟，other里面的图你咋处理的

鲁破特之泪 2022.10.28
爱了爱了，就是需要这种傻瓜教程

vajra0209 2022.07.15
博主你好，选出来的45类，训练集4552张，验证集2314张对吗？
- 我会成为大神回复居然是这样的吗 2023.05.25
  您好，我训练出来也是这样的，但是为什么我识别出来每个的种类，训练集和数据集加起来不是数量都超过100的呢？是前面在训练的时候删除了这个类相关的一些图片吗？
- 我会成为大神回复vajra0209 2023.05.22
  你好，训练集没有生成xml的图片您是怎么筛选出来的啊
- 居然是这样的吗回复vajra0209 2022.07.20
  我是这样的

qq_854041915 2022.06.11
请问博主最后筛选出的45类训练和测试加在一起是不是才接近8000张呢？看了好多论文都是说用的6105张训练和3017测试，为什么达不到这么多呢？
- 我会成为大神回复vajra0209 2023.05.24
  对，我的是这样的，但是我是又自己手动处理过一次，就是自己手动删除了一些图片，因为有一些图片是没有对应的xml格式的。但是我有一个比较好奇的点，就是训练集和验证集里面都包含45类吗？这个是不是也得通过代码验证一下，看看输出的结果。
- 普通厨师刘昴星回复vajra0209 2023.01.17
  训练集5298张，验证集2736张
- vajra0209回复qq_854041915 2022.07.15
  你好，选出来的45类，是训练集4552张，验证集2314张吗？