MMTracking项目中的自定义数据预处理流程详解-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00720/article/details/148552953

MMTracking项目中的自定义数据预处理流程详解

mmtracking OpenMMLab Video Perception Toolbox. It supports Video Object Detection (VID), Multiple Object Tracking (MOT), Single Object Tracking (SOT), Video Instance Segmentation (VIS) with a unified framework. 项目地址: https://gitcode.com/gh_mirrors/mm/mmtracking

引言

在计算机视觉任务中，数据预处理是模型训练和推理的关键环节。本文将深入探讨MMTracking项目中视频目标跟踪任务的数据预处理流程，帮助开发者理解并自定义适合自己需求的数据处理方式。

数据预处理流程概述

MMTracking项目针对视频目标跟踪任务的特点，设计了两种数据流水线：

单张图片处理流程：与常规目标检测任务类似
多张图片处理流程：针对视频序列中多帧关联的特殊需求

单张图片处理流程

单张图片处理流程与常规目标检测任务基本一致，但有以下特殊之处：

使用VideoCollect替代常规的Collect，专门为视频任务设计
自动收集视频特有的元数据，如帧ID(frame_id)和视频数据标识(is_video_data)

多张图片处理流程详解

视频目标跟踪任务通常需要同时处理多帧图像，以便利用时序信息。下面详细介绍多帧处理流程的关键步骤：

1. 参考帧采样机制

在视频处理中，我们通常以关键帧为中心，采样若干参考帧。MMTracking通过ref_img_sampling方法实现这一功能：

class CocoVideoDataset(CocoDataset):
    def __init__(self, ref_img_sampler=None, *args, **kwargs):
        super().__init__(*args, **kwargs)
        self.ref_img_sampler = ref_img_sampler
        
    def ref_img_sampling(self, **kwargs):
        # 实现参考帧采样逻辑
        pass

采样后的数据组织形式为列表，其中第一个元素是关键帧的标注信息，后续元素是参考帧的标注信息。

2. 序列化处理流程

多帧处理的核心是对每帧应用相同的预处理操作，同时保持帧间的一致性：

@PIPELINES.register_module()
class LoadMultiImagesFromFile(LoadImageFromFile):
    def __call__(self, results):
        outs = []
        for _results in results:
            _results = super().__call__(_results)
            outs.append(_results)
        return outs

关键点：

继承单帧处理类并扩展为多帧处理
通过循环对每帧应用相同的处理逻辑
使用share_params参数控制是否共享随机变换的随机种子

3. 参考帧拼接处理

当参考帧数量较多时，使用ConcatVideoReferences将多个参考帧合并为一个字典，简化数据结构：

输入：包含关键帧和多个参考帧的列表
输出：长度为2的列表（关键帧+合并后的参考帧）

4. 数据格式标准化

最后使用SeqDefaultFormatBundle将列表形式的数据转换为模型所需的字典格式：

dict(type='SeqDefaultFormatBundle', ref_prefix='ref')

完整处理流程示例

下面是一个典型的多帧处理流水线配置：

train_pipeline = [
    dict(type='LoadMultiImagesFromFile'),  # 多帧加载
    dict(type='SeqLoadAnnotations', with_bbox=True, with_track=True),  # 加载标注
    dict(type='SeqResize', img_scale=(1000, 600), keep_ratio=True),  # 统一缩放
    dict(type='SeqRandomFlip', share_params=True, flip_ratio=0.5),  # 随机翻转
    dict(type='SeqNormalize', **img_norm_cfg),  # 归一化
    dict(type='SeqPad', size_divisor=16),  # 填充
    dict(type='VideoCollect', keys=['img', 'gt_bboxes', 'gt_labels', 'gt_instance_ids']),
    dict(type='ConcatVideoReferences'),  # 参考帧合并
    dict(type='SeqDefaultFormatBundle', ref_prefix='ref')  # 格式转换
]