使自己的数据集标准化

本文介绍了VOC数据集的主要结构,包括Annotations、JPEGImages等关键文件夹,并详细阐述了如何标准化图片文件名,修改XML标注文件以及生成训练、测试所需的txt文件,以供模型训练使用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

VOC数据集主要结构

  • VOCdevkit
    • VOC2019
      • Annotations
      • ImageSets
        • Main
        • Layout
        • Segmentation
      • JPEGImages
      • SegmwntationClass
      • SegmwntationsObject

其中, 最主要的文件就是以上加粗的文件夹。
Annotations 放置JPEGImages文件夹下图片的标注文件(.xml文件)
JPEGImages下放你要去训练和测试模型的所有图片
Main文件夹下是生成
val.txt
train.txt
test.txt
trainval.txt
四个文件的

注意事项:

图片不能大写字母, 并且数字保持6

接下来对图片名字进行批处理

在JPEGImages文件夹下打开终端
在这里插入图片描述

输入dir /b>a.xls

生成a.xls文件
第一列为你原来目录下所有文件的名字(此处包括a.xls, 所以在a.xls文件中记得删去)
在这里插入图片描述
在旁边列(即B列)第一行 输入你将要更改的文件名(如我的是000001.jpg), 右下角下拉。
在这里插入图片描述
在旁边列(即C列) 输入="ren “&A1&” "&B1 (空格别忘了), 然后下拉。
然后在文件夹新建一个 txt文件, 复制刚才a.xls文件中生成的C列粘贴进去, 然后重命名为a.bat, 执行a.bat。

修改xml文件

  1. 修改xml文件的文件名

    步骤同修改图片的文件名
    
  2. 修改xml文件

    主要用到以下代码
    功能如下: 
    1. 修改xml中的filename
    2. 修改xml中的path
    
import xml.dom.minidom
import os
path='./Annotations' # xml文件存放路径
sv_path='./Annotations1' # 修改后的xml文件存放路径,(如果报错, 先创建一个Anno
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值