【目标检测适用】Pascal Voc（07+12）联合训练并在07上测试

最新推荐文章于 2025-09-28 16:09:58 发布

原创

最新推荐文章于 2025-09-28 16:09:58 发布 · 8.4k 阅读

51 ·

CC 4.0 BY-SA版权

文章标签：

#python #目标检测 #计算机视觉 #深度学习

该博客介绍了两种组织和使用PASCAL VOC数据集的方式，用于训练和评估深度学习模型，如YOLO和SSD。第一种方式将VOC2007和VOC2012的训练集合并，训练时使用trainval，测试时使用VOC2007的test集。第二种方式适用于YOLOV3，将所有数据整合并创建相应的labels和txt文件，用于训练和验证。文章还提供了详细的目录结构和数据处理步骤。

该文章已生成可运行项目，

跑过很多模型，每次用Pascal Voc的组织方式都不同，但是一般都是用Pascal Voc2007+2012做训练，在Pascal Voc2007上做测试，记录如下：

1. 概览

对于分类/检测任务而言，完成07 + 12数据集合并后，共得到如下数据：

训练数据：16551张图像，共40058个目标

测试数据：4952张图像，共12032个目标

其中VOC 2007的训练集提供了

训练数据：2501张图像，共6301个目标

验证数据：2510张图像，共6307个目标

训练+验证数据：5011张图像，共12608个目标

VOC 2012的训练集提供了

训练数据：5717张图像，共13609个目标

验证数据：5823张图像，共13841个目标

训练+验证数据：11540张图像，共27450个目标

VOC 2007的测试集提供了

测试数据：4952张图像，共12032个目标

2. 第一种组织方式

我把VOC_ROOT设置为/data/data_hx/new-YOLO-PyTorch/data/VOCdevkit/，下面有VOC2007和VOC2012两个文件夹
在这里插入图片描述
这两个文件夹的内容怎么来的呢？

从官网下载四个压缩包，解压三个，其中VOC2012test我们是用不着的。

对VOCtrainval_11-May-2012，直接重命名为VOC2012
对VOCtrainval_06-Nov-2007和VOCtest_06-Nov-2007，两个内容合并后重命名为VOC2007.（组织方式下面给出）

├── VOCtest_06-Nov-2007
│   └── VOCdevkit
│       └── VOC2007
│           ├── Annotations
│           ├── ImageSets
│           ├── JPEGImages
│           ├── SegmentationClass（检测不用）
│           └── SegmentationObject（检测不用）
├── VOCtest_06-Nov-2007.tar
├── VOCtrainval_06-Nov-2007
│   └── VOCdevkit
│       └── VOC2007
│           ├── Annotations
│           ├── ImageSets
│           ├── JPEGImages
│           ├── SegmentationClass（检测不用）
│           └── SegmentationObject（检测不用）

做好上述工作后按以下方式加载VOC数据集：

先给出VOCDetection函数，默认的image_sets是07和12年的trainval

class VOCDetection(data.Dataset):
    """VOC Detection Dataset Object

    input is image, target is annotation

    Arguments:
        root (string): filepath to VOCdevkit folder.
        image_set (string): imageset to use (eg. 'train', 'val', 'test')
        transform (callable, optional): transformation to perform on the
            input image
        target_transform (callable, optional): transformation to perform on the
            target `annotation`
            (eg: take in caption string, return tensor of word indices)
        dataset_name (string, optional): which dataset to load
            (default: 'VOC2007')
    """

    def __init__(self, root, img_size,
                 image_sets=[('2007', 'trainval'), ('2012', 'trainval')],
                 transform=None, target_transform=VOCAnnotationTransform(),
                 dataset_name='VOC0712', mosaic=False):
        self.root = root
        self.img_size = img_size
        self.image_set = image_sets
        self.transform = transform
        self.target_transform = target_transform
        self.name = dataset_name
        self._annopath = osp.join('%s'

本文章已经生成可运行项目

最低0.47元/天解锁文章

29 条评论

然明明 2023.12.14
博主您好，我想问一下测试集怎么跑

哇哇-哇哇哇-哇哇 2023.12.11
你好，我的voc2012trainval里的JPEGImages有17125张图片，里面也有2007的图片，下载的数据集解压出来就是这样，人傻了
- 哇哇-哇哇哇-哇哇回复Dn_Benjamin 2024.07.17
  你好，请问你解决了吗
- 哇哇-哇哇哇-哇哇回复Dn_Benjamin 2024.01.07
  不知道，应该有重复的
- Dn_Benjamin回复哇哇-哇哇哇-哇哇 2024.01.04
  我下载下来也是17125张，怎么多了这么多啊？

金焱111 2022.11.29
07和12是不是有重复的图片啊
- leSerein_回复金焱111 2022.11.29
  有，我文中应该有提到

SuperiorCN 2022.11.17
UP主你好，关注你了。第一行说07+12组合后只有训练数据和测试数据是不是意味着训练数据没有验证集，只有训练集？
- SuperiorCN回复leSerein_ 2022.11.29
  哦哦，谢谢博主！
- leSerein_回复SuperiorCN 2022.11.17
  在测试集上的结果也可以说明模型的泛化性，用于算法评估。验证集可能工业界用的更多？个人想法
- leSerein_回复SuperiorCN 2022.11.17
  是的，没有验证集，只有训练集。现在大家都是在训练集上训练，在测试集上看结果取最好的，说来奇怪。

lifive 2022.06.08
您好第二种方式里提到“JPEGImages改名为images” 那还需要JPEGImages这个文件夹吗
- leSerein_回复lifive 2022.06.09
  不需要了，删了就行，保留着也可以

一米微笑 2022.06.01
博主您好，VOC2012的test测试集好像也公开了呀，好像也有标签？所以测试数据是不是也可以把2012的合进来？
- leSerein_回复一米微笑 2022.06.04
  是的呀，当时是比赛，你要交到他们的服务器上才会给你指标，我没有看过voc2012测试集有没有标签，如果没有的话就是你说的这样子
- 一米微笑回复leSerein_ 2022.06.03
  VOC2012test的Annotations文件夹里虽然有文件，但是我用labelimg看了看图片，没有标注框。是不是这些标签都是空的？也就是说VOC2012的test测试集没有公开标签？
- leSerein_回复一米微笑 2022.06.02
  VOC也是老的数据集辣，就按大家都用的做法：VOC2007测试集当测试吧，这个没有必要很纠结喔

howie96 2022.05.30
博主你好，想问一下合并之后voc2007和voc2012的训练集放到一起，验证集放到一起是吧，应该不是把其中的一个验证集也拿来训练吧？
- leSerein_回复howie96 2022.05.31
  主流的做法是：训练数据：16551张图像，共40058个目标测试数据：4952张图像，共12032个目标没有必要过度关注验证集，因为不同数据集做法不同，这个目标检测任务就按这样来吧

小哈蒙德 2022.05.09
我想问问，07和12的数据是不是有重复数据，会不会有train在val或者test混在一起的情况。
- leSerein_回复小哈蒙德 2022.05.11
  是的，没有
- 小哈蒙德回复leSerein_ 2022.05.10
  官方给出的07和12分配的应该就是没有train和val混在一起的把
- leSerein_回复小哈蒙德 2022.05.10
  混的情况是存在的，比如用于分割任务中的（VOC augment dataset），出现了训练集包含了部分验证集中的图像。但是本文中的是检测任务，用到的没有train和val混在一起的情况。test没有标签一般不用
- leSerein_回复小哈蒙德 2022.05.10
  不会的，07的trainval是5011张图像，12的trianval是11540张图像，我看了文件夹，这两合并后是16551张，07和12之间没有重复。单独的07train、07val；单独的12train、12val也没有混在一起的情况

jwnudt 2022.05.08
Pascal Voc（07+12）联合训练并在07上测试请问，有这种训练方式的指标榜单吗？或者已有算法的性能对比比如yolov5，没找到那。谢谢楼主。
- 来点深度学习回复jwnudt 2023.06.13
  你好，合并以后怎么划分数据集呢？train val test 按照什么比例划分
- leSerein_回复jwnudt 2022.05.08
  您好，VOC是较早的数据集，现有的网络模型大部分都能在上面取得较好的效果，所以最新的算法模型上大家比的都是较难一些的COCO数据集。在早期的时候07+12联合训练是最常用的也是默认的，你可以看看检测的早期模型（YOLOV1、SSD）等，都是这种训练方式。