Detectron研读和实践三:用faster_rcnn_R-50-FPN训练PASCAL VOC数据集

该系列上一篇博客介绍了Detectron的getting started例子faster_rcnn_R-50-FPN的一些源码分析,这次来实践一下,用faster_rcnn_R-50-FPN模型训练PASCAL VOC数据集。

平台和环境:Ubuntu16.04+GTX1080ti+CUDA 8.0+cudnn5.1

1 为Detectron准备PASCAL VOC数据集

1.1 下载数据集

PASCAL VOC数据集是目标检测领域的常用标准数据集,也可以用于图像分类和图像分割,包含20类约10k张图片,主要由VOC2007和VOC2012两个子数据集。关于PASCAL VOC的详细介绍以及下载可以去官网 ,图省事的话也可以直接去https://pjreddie.com/projects/pascal-voc-dataset-mirror/这个镜像网站下载。

1.2 下载json格式的标签文件

由于Detectron使用的数据集标注文件格式是统一的COCO json格式,所以无法直接用PASCAL VOC自带的xml格式标签文件,需要将其转换为COCO json格式,不过好在COCO官网已经给我们转换好了,下载链接 。当然,如果想用Detectron训练自己的数据集时就需要参考COCO的数据格式自己转换了。下载好VOC的json格式文件后,将其放在相应年份VOC的Annotations文件夹下面。

1.3 创建软链接(可选)

设Detectron的主目录为DETECTRON, 将含有json格式标签文件的VOC数据集文件夹(设主目录为VOC)置于DETECTRON/lib/datasets目录下,不过为了节省系统盘上的空间(毕竟数据集比较大)同时也为了方便其他程序使用,一般都是将数据集文件夹置于硬盘中,然后创建软链接到datasets目录下。命令如下:

 ln -s VOC(数据集目录) DETECTRON/lib/datasets/软链接名

1.4 修改Detectron中的相应代码

在Detectron的lib/datasets/dataset_catalog.py文件中增加自定义的数据集字典,貌似VOC的已经在里面了,不过要注意其是否与你的数据集路径名一致。下面是部分截图。
这里写图片描述

2 修改模型训练的配置文件

以修改tutorial_1gpu_e2e_faster_rcnn_R-50-FPN.yaml为例,主要是把训练和测试用的数据集改成自己要训练的数据集,其他训练参数可以使用默认的也可以自己根据需要调整。我的训练数据集使用了(‘voc_2012_train’, ),测试数据集用的是(‘voc_2012_val’,)
By the way, 如果想要在VOC2007和VOC2012上一起训练,只要在上面的(‘voc_2012_train’,)元组里面加上VOC2007的数据集就行了,如(‘voc_2012_train’, ‘voc_2007_train’)。

3 训练

3.1 单GPU训练

python DETECTRON/tools/train_net.py \
    --cfg configs/getting_started/tutorial_1gpu_e2e_faster_rcnn_R-50-FPN.yaml \
    OUTPUT_DIR /tmp/detectron-output
  • GTX1080ti上训练大概需要2个多小时
  • 每张测试图片的推断时间大约50ms
  • VOC2012_val上的mAP约为72.2%

单GPU训练结果截图:
这里写图片描述

3.2 Multi-GPU训练

Detectron 提供了基于2、4、8 张 GPUS 训练的 configs 参数配置文件.

如 configs/getting_started/tutorial_{2,4,8}gpu_e2e_faster_rcnn_R-50-FPN.yaml.

如,2 张 GPUs 的训练:

python DETECTRON/tools/train_net.py \
    --multi-gpu-testing \
    --cfg configs/getting_started/tutorial_2gpu_e2e_faster_rcnn_R-50-FPN.yaml \
    OUTPUT_DIR /tmp/detectron-output

–multi-gpu-testing是告诉 Detectron 在训练结束后,采用 multiple GPUs (如 NUM_GPUs 为 2) 进行并行化推断

  • 在两块GTX1080ti上训练大概需要1个多小时
  • 每张测试图片的推断时间也基本减半
  • VOC2012_val上的mAP约为72.2%

多GPU训练可能会遇到一些问题,如multi-GPU training throw an illegal memory access,在执行训练命令时在末尾加上USE_NCCL True 可能会有助于解决(但也有可能因加上这条命令使GPU陷入deadlock状态,如遇到,强行结束进程再多试几次)

4 基于训练的模型执行推断

4.1 修改dummp_datasets.py和infer_simple.py

在Detectron的lib/datasets/dummy_datasets.py文件中仿照get_coco_dataset()函数添加一个get_voc_dataset()函数,具体如下:

def get_VOC_dataset():
    """A dummy VOC dataset"""
    ds = AttrDict()
    classes = ['__background__', 
               'aeroplane', 'bicycle', 'bird', 'boat',
                'bottle', 'bus', 'car', 'cat', 'chair',
                'cow', 'diningtable', 'dog', 'horse',
                'motorbike', 'person', 'pottedplant',
                'sheep', 'sofa', 'train', 'tvmonitor']
    ds.classes = {i:name for i, name in enumerate(classes)}
    return ds

然后在infer_simple.py文件中将main()函数里面的
dummy_coco_dataset = dummy_datasets.get_coco_dataset()
改成dummy_coco_dataset = dummy_datasets.get_voc_dataset()

4.2 执行推断

还是对demo文件夹里面的图片进行测试
测试命令:

python infer_simple.py \
--cfg ../configs/getting_started/tutorial_1gpu_e2e_faster_rcnn_R-50-FPN.yaml \
--wts ../demo/output/R-50-FPN_12/train/voc_2012_train/generalized_rcnn/model_final.pkl  /home/ygj/Software/Detectron/demo/

测试结果:

这里写图片描述

这里写图片描述

利用Detectron训练PASCAL VOC大概的流程就是这些,希望能对大家有点帮助^_^。

### AFPN算法实现代码示例 AFPN(Adaptive Feature Pyramid Network)是一种改进版的FPN结构,其主要特点是通过引入自适应权重机制来动态调整不同层次特征的重要性。以下是基于PyTorch框架的一个简化版本AFPN实现: #### 主要模块说明 - **`__init__` 方法**:继承自 `nn.Module` 类,并初始化上下采样层以及自适应加权融合模块[^1]。 - **自适应加权融合**:通过可学习参数控制多尺度特征图之间的贡献比例。 ```python import torch import torch.nn as nn import torch.nn.functional as F class AdaptiveWeight(nn.Module): """ 自适应权重模块 """ def __init__(self, num_levels=5): super(AdaptiveWeight, self).__init__() self.num_levels = num_levels self.weights = nn.Parameter(torch.ones(num_levels)) def forward(self, features): weights = F.relu(self.weights) norm_weights = weights / (weights.sum() + 1e-5) # 归一化处理 fused_feature = sum([w * f for w, f in zip(norm_weights, features)]) return fused_feature class AFPN(nn.Module): """ Adaptive Feature Pyramid Network """ def __init__(self, in_channels_list, out_channels): super(AFPN, self).__init__() # 上采样下采样的卷积操作 self.lateral_convs = nn.ModuleList() self.fpn_convs = nn.ModuleList() for i in range(len(in_channels_list)): lateral_conv = nn.Conv2d(in_channels_list[i], out_channels, kernel_size=1) fpn_conv = nn.Conv2d(out_channels, out_channels, kernel_size=3, padding=1) self.lateral_convs.append(lateral_conv) self.fpn_convs.append(fpn_conv) # 自适应权重模块 self.adaptive_weight = AdaptiveWeight(num_levels=len(in_channels_list)) def forward(self, inputs): laterals = [ lateral_conv(inputs[i]) for i, lateral_conv in enumerate(self.lateral_convs) ] used_backbone_levels = len(laterals) for i in range(used_backbone_levels - 1, 0, -1): # Top-down pathway prev_shape = laterals[i - 1].shape[2:] laterals[i - 1] += F.interpolate( laterals[i], size=prev_shape, mode='nearest' ) outs = [ self.fpn_convs[i](laterals[i]) for i in range(used_backbone_levels) ] # 融合多尺度特征 adaptive_fusion = self.adaptive_weight(outs) return adaptive_fusion ``` 上述代码实现了AFP网络的核心部分,其中包含了自适应权重模块用于动态调节各层特征的重要程度[^2]。 --- ###
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值