一、PASCAL_VOC形式的数据集文件组织形式
VOCdevkit/
|__ VOC2007/
|__ Annotations/ (这里存放着每一张图片的XML注解文件,如 000001.xml)
|__ ImageSets/ (这里包含不同任务或不同类别的图像文件名列表)
|__ Main/ (例如,train.txt, val.txt, trainval.txt, test.txt)
|__ Layout/ (布局任务的图像集,例如,train.txt, val.txt, trainval.txt, test.txt)
|__ Segmentation/ (分割任务的图像集,例如,train.txt, val.txt, trainval.txt, test.txt)
|__ JPEGImages/ (这里存放着数据集中的所有JPEG图像,如 000001.jpg)
|__ SegmentationClass/ (这里包含分割类别标签的图像)
|__ SegmentationObject/ (这里包含分割目标标签的图像)
二、VOC2COCO.py 数据转换
这里以遥感中的DIOR数据集为例(DIOR采用的就是PASCAL_VOC数据集的文件组织形式)

一般VOC数据集都提前划分好了train.txt,val.txt, test.txt,所以以下代码是直接按照这三个文件list来读取的。代码如下:
import os
import json
import xml.etree.ElementTree as ET
from typing import List,

文章详细介绍了PASCAL_VOC数据集的文件结构,并提供了一个Python脚本,该脚本用于将VOC格式转换为COCO格式,特别是针对遥感领域的DIOR数据集。此外,还展示了如何将一个完整的COCO数据集按比例划分为训练、验证和测试集。
最低0.47元/天 解锁文章
4292

被折叠的 条评论
为什么被折叠?



