Detectron研读和实践三：用faster_rcnn_R-50-FPN训练PASCAL VOC数据集

本文链接：https://blog.youkuaiyun.com/Blateyang/article/details/79815490

本文介绍如何使用Faster R-CNN R-50-FPN模型训练PASCALVOC数据集，包括环境搭建、数据集准备、模型训练与配置修改等步骤，并分享了训练过程及结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

该系列上一篇博客介绍了Detectron的getting started例子faster_rcnn_R-50-FPN的一些源码分析，这次来实践一下，用faster_rcnn_R-50-FPN模型训练PASCAL VOC数据集。

平台和环境：Ubuntu16.04+GTX1080ti+CUDA 8.0+cudnn5.1

1 为Detectron准备PASCAL VOC数据集

1.1 下载数据集

PASCAL VOC数据集是目标检测领域的常用标准数据集，也可以用于图像分类和图像分割，包含20类约10k张图片，主要由VOC2007和VOC2012两个子数据集。关于PASCAL VOC的详细介绍以及下载可以去官网，图省事的话也可以直接去https://pjreddie.com/projects/pascal-voc-dataset-mirror/这个镜像网站下载。

1.2 下载json格式的标签文件

由于Detectron使用的数据集标注文件格式是统一的COCO json格式，所以无法直接用PASCAL VOC自带的xml格式标签文件，需要将其转换为COCO json格式，不过好在COCO官网已经给我们转换好了，下载链接。当然，如果想用Detectron训练自己的数据集时就需要参考COCO的数据格式自己转换了。下载好VOC的json格式文件后，将其放在相应年份VOC的Annotations文件夹下面。

1.3 创建软链接（可选）

设Detectron的主目录为DETECTRON, 将含有json格式标签文件的VOC数据集文件夹（设主目录为VOC）置于DETECTRON/lib/datasets目录下，不过为了节省系统盘上的空间（毕竟数据集比较大）同时也为了方便其他程序使用，一般都是将数据集文件夹置于硬盘中，然后创建软链接到datasets目录下。命令如下：

 ln -s VOC(数据集目录) DETECTRON/lib/datasets/软链接名

1.4 修改Detectron中的相应代码

在Detectron的lib/datasets/dataset_catalog.py文件中增加自定义的数据集字典，貌似VOC的已经在里面了，不过要注意其是否与你的数据集路径名一致。下面是部分截图。
这里写图片描述

2 修改模型训练的配置文件

以修改tutorial_1gpu_e2e_faster_rcnn_R-50-FPN.yaml为例，主要是把训练和测试用的数据集改成自己要训练的数据集，其他训练参数可以使用默认的也可以自己根据需要调整。我的训练数据集使用了(‘voc_2012_train’, )，测试数据集用的是(‘voc_2012_val’,)
By the way, 如果想要在VOC2007和VOC2012上一起训练，只要在上面的(‘voc_2012_train’,)元组里面加上VOC2007的数据集就行了，如(‘voc_2012_train’, ‘voc_2007_train’)。

3 训练

3.1 单GPU训练

python DETECTRON/tools/train_net.py \
    --cfg configs/getting_started/tutorial_1gpu_e2e_faster_rcnn_R-50-FPN.yaml \
    OUTPUT_DIR /tmp/detectron-output

GTX1080ti上训练大概需要2个多小时
每张测试图片的推断时间大约50ms
VOC2012_val上的mAP约为72.2%

单GPU训练结果截图：
这里写图片描述

3.2 Multi-GPU训练

Detectron 提供了基于2、4、8 张 GPUS 训练的 configs 参数配置文件.

如 configs/getting_started/tutorial_{2,4,8}gpu_e2e_faster_rcnn_R-50-FPN.yaml.

如，2 张 GPUs 的训练：

python DETECTRON/tools/train_net.py \
    --multi-gpu-testing \
    --cfg configs/getting_started/tutorial_2gpu_e2e_faster_rcnn_R-50-FPN.yaml \
    OUTPUT_DIR /tmp/detectron-output

–multi-gpu-testing是告诉 Detectron 在训练结束后，采用 multiple GPUs (如 NUM_GPUs 为 2) 进行并行化推断

在两块GTX1080ti上训练大概需要1个多小时
每张测试图片的推断时间也基本减半
VOC2012_val上的mAP约为72.2%

多GPU训练可能会遇到一些问题，如multi-GPU training throw an illegal memory access，在执行训练命令时在末尾加上USE_NCCL True 可能会有助于解决（但也有可能因加上这条命令使GPU陷入deadlock状态，如遇到，强行结束进程再多试几次）

4 基于训练的模型执行推断

4.1 修改dummp_datasets.py和infer_simple.py

在Detectron的lib/datasets/dummy_datasets.py文件中仿照get_coco_dataset()函数添加一个get_voc_dataset()函数，具体如下：

def get_VOC_dataset():
    """A dummy VOC dataset"""
    ds = AttrDict()
    classes = ['__background__', 
               'aeroplane', 'bicycle', 'bird', 'boat',
                'bottle', 'bus', 'car', 'cat', 'chair',
                'cow', 'diningtable', 'dog', 'horse',
                'motorbike', 'person', 'pottedplant',
                'sheep', 'sofa', 'train', 'tvmonitor']
    ds.classes = {i:name for i, name in enumerate(classes)}
    return ds

然后在infer_simple.py文件中将main()函数里面的
dummy_coco_dataset = dummy_datasets.get_coco_dataset()
改成dummy_coco_dataset = dummy_datasets.get_voc_dataset()

4.2 执行推断

还是对demo文件夹里面的图片进行测试
测试命令：

python infer_simple.py \
--cfg ../configs/getting_started/tutorial_1gpu_e2e_faster_rcnn_R-50-FPN.yaml \
--wts ../demo/output/R-50-FPN_12/train/voc_2012_train/generalized_rcnn/model_final.pkl  /home/ygj/Software/Detectron/demo/

测试结果：

这里写图片描述