SimpleDet项目微调指南：从COCO到PASCAL VOC的模型迁移实战-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00410/article/details/148755124

SimpleDet项目微调指南：从COCO到PASCAL VOC的模型迁移实战

simpledet A Simple and Versatile Framework for Object Detection and Instance Recognition 项目地址: https://gitcode.com/gh_mirrors/sim/simpledet

前言

在计算机视觉领域，模型微调（Fine-tuning）是一种常见且高效的迁移学习技术。本文将详细介绍如何在SimpleDet框架下，将一个在COCO数据集上预训练的模型迁移到PASCAL VOC数据集上进行微调。通过本教程，您将掌握模型微调的核心流程和关键技巧。

数据准备

数据格式要求

SimpleDet要求标注数据采用特定的JSON格式，主要包含以下字段：

[
    {
        "gt_class": (nBox, ),  # 每个边界框的类别ID
        "gt_bbox": (nBox, 4),  # 边界框坐标，xyxy格式
        "flipped": bool,       # 是否水平翻转
        "h": int,              # 图像高度
        "w": int,              # 图像宽度
        "image_url": str,      # 图像绝对路径
        "im_id": int           # 图像唯一ID
    },
    ...
]

PASCAL VOC数据集结构

标准的VOC数据集目录结构如下：

VOCdevkit
├── VOC2007
│   ├── Annotations        # XML标注文件
│   ├── ImageSets          # 图像划分信息
│   ├── JPEGImages         # 原始图像
│   └── ...                # 其他目录
└── VOC2012
    ├── Annotations
    ├── ImageSets
    ├── JPEGImages
    └── ...

数据转换流程

解析原始XML标注：从VOC的XML文件中提取关键信息
- gt_class：从<object>标签中的<name>获取，类别ID从1开始（0保留给背景类）
- gt_bbox：从<bndbox>标签中获取坐标
- h和w：从<size>标签中获取图像尺寸
- image_url：由<folder>和<filename>组合构建绝对路径
生成JSON文件：将上述信息整理为SimpleDet要求的格式
转换为ROIDB格式：使用内置工具进行最终转换

python3 utils/json_to_roidb.py --json path/to/your.json

模型微调实战

基准模型训练

我们首先在VOC2007上训练一个Faster R-CNN FPN R-50模型作为基准：

python detection_train.py --config config/faster_r50v1_fpn_voc07_1x.py
python detection_test.py --config config/faster_r50v1_fpn_voc07_1x.py

该基准模型在VOC2007测试集上的mAP@50为76.3。

使用COCO预训练模型

接下来，我们使用在COCO上预训练的Mask R-CNN R-50 FPN模型进行初始化：

准备权重文件：
- 下载预训练模型
- 重命名为r50v1-maskrcnn-coco-0000.params

调整权重文件：由于分类头不兼容，需要移除特定参数：

import mxnet as mx
params = mx.nd.load("r50v1-maskrcnn-coco-0000.params")
# 移除分类相关参数
del params["arg:bbox_cls_logit_weight"]
del params["arg:bbox_cls_logit_bias"]
del params["arg:bbox_reg_delta_weight"]
del params["arg:bbox_reg_delta_bias"]
mx.nd.save("r50v1-maskrcnn-coco-0000.params", params)

微调训练：

python detection_train.py --config config/faster_r50v1_fpn_voc07_finetune_1x.py
python detection_test.py --config config/faster_r50v1_fpn_voc07_finetune_1x.py