MMTracking项目数据管道定制化教程-优快云博客

MMTracking项目数据管道定制化教程

mmtracking OpenMMLab Video Perception Toolbox. It supports Video Object Detection (VID), Multiple Object Tracking (MOT), Single Object Tracking (SOT), Video Instance Segmentation (VIS) with a unified framework. 项目地址: https://gitcode.com/gh_mirrors/mm/mmtracking

数据管道概述

在MMTracking项目中，数据管道(Data Pipeline)是处理输入数据的关键组件，负责将原始数据转换为模型可接受的格式。数据管道由一系列有序的数据转换操作组成，包括图像加载、数据增强、格式转换等步骤。

数据管道类型

MMTracking支持两种主要的数据管道类型：

单图像管道：处理单个图像，与MMDetection中的实现基本一致
多图像管道：同时处理多个相关图像（如视频序列中的连续帧）

单图像数据处理管道

单图像管道主要用于处理静态图像或视频中的单帧。虽然与MMDetection中的实现类似，但MMTracking做了一些针对视频任务的特殊调整：

实现了VideoCollect类，继承自MMDetection的Collect但增加了对视频任务的支持
默认收集视频相关的元信息，如frame_id（帧ID）和is_video_data（是否为视频数据）等关键字段

典型的单图像管道配置示例：

single_img_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='LoadAnnotations', with_bbox=True),
    dict(type='Resize', img_scale=(1333, 800), keep_ratio=True),
    dict(type='RandomFlip', flip_ratio=0.5),
    dict(type='Normalize', **img_norm_cfg),
    dict(type='Pad', size_divisor=32),
    dict(type='DefaultFormatBundle'),
    dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels'])
]

多图像数据处理管道

多图像管道是MMTracking的特色功能，主要用于处理视频序列中相关联的多个帧。这种管道在目标跟踪等任务中尤为重要，因为跟踪算法通常需要参考前后帧的信息。

多图像管道工作原理

参考帧采样：
- 首先加载关键帧的标注信息
- 然后根据配置的采样策略（如随机采样、邻近采样等）加载参考帧
- 最终得到一个包含关键帧和参考帧标注信息的列表
序列化处理：
- 对列表中的每个帧依次应用相同的处理流程
- 处理过程中可以保持随机参数一致（如相同的裁剪位置、相同的翻转方向等）
参考帧拼接：
- 使用ConcatVideoReferences将多个参考帧合并为一个字典
- 处理后列表长度固定为2（关键帧+合并后的参考帧）
格式转换：
- 使用SeqDefaultFormatBundle将处理后的数据转换为模型所需的字典格式

关键技术实现

MMTracking通过继承和扩展MMDetection的组件来实现多图像处理：

@PIPELINES.register_module()
class LoadMultiImagesFromFile(LoadImageFromFile):
    """扩展单图像加载器以支持多图像加载"""
    
    def __call__(self, results):
        outs = []
        for _results in results:
            _results = super().__call__(_results)
            outs.append(_results)
        return outs

典型配置示例

multi_img_pipeline = [
    dict(type='LoadMultiImagesFromFile'),
    dict(type='SeqLoadAnnotations', with_bbox=True, with_track=True),
    dict(type='SeqResize', img_scale=(1000, 600), keep_ratio=True),
    dict(type='SeqRandomFlip', share_params=True, flip_ratio=0.5),
    dict(type='SeqNormalize', **img_norm_cfg),
    dict(type='SeqPad', size_divisor=16),
    dict(
        type='VideoCollect',
        keys=['img', 'gt_bboxes', 'gt_labels', 'gt_instance_ids']),
    dict(type='ConcatVideoReferences'),
    dict(type='SeqDefaultFormatBundle', ref_prefix='ref')
]