MMAction2 动作识别框架中的数据管道定制指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00624/article/details/148523914

MMAction2 动作识别框架中的数据管道定制指南

mmaction2 OpenMMLab's Next Generation Video Understanding Toolbox and Benchmark 项目地址: https://gitcode.com/gh_mirrors/mm/mmaction2

前言

在计算机视觉领域，特别是动作识别任务中，数据预处理流程对模型性能有着至关重要的影响。本文将深入探讨 MMAction2 框架中的数据管道（Data Pipeline）定制方法，帮助开发者根据具体需求构建高效的数据预处理流程。

数据管道基础概念

数据管道是指从数据集中索引样本时处理样本字典的一系列数据转换步骤。在 MMAction2 中，每个数据转换步骤都遵循以下模式：

接受一个字典作为输入
对数据进行特定处理
输出处理后的字典给下一个转换步骤

这种设计使得数据预处理流程高度模块化和可配置，开发者可以灵活组合不同的处理步骤。

典型数据管道结构分析

让我们以一个典型的 Kinetics 数据集上的 SlowFast 模型训练管道为例：

train_pipeline = [
    dict(type='DecordInit'),
    dict(type='SampleFrames', clip_len=32, frame_interval=2, num_clips=1),
    dict(type='DecordDecode'),
    dict(type='Resize', scale=(-1, 256)),
    dict(type='RandomResizedCrop'),
    dict(type='Resize', scale=(224, 224), keep_ratio=False),
    dict(type='Flip', flip_ratio=0.5),
    dict(type='FormatShape', input_format='NCTHW'),
    dict(type='PackActionInputs')
]

这个管道展示了三个主要处理阶段：

1. 数据加载阶段

DecordInit: 初始化视频解码器
DecordDecode: 实际解码视频帧

如果使用预提取的视频帧而非原始视频文件，则应使用 RawFrameDecode 并配合 RawframeDataset。

2. 帧采样与增强阶段

SampleFrames: 控制从视频中采样多少帧以及采样策略
各种空间变换（Resize, RandomResizedCrop, Flip 等）

3. 数据格式化阶段

FormatShape: 将数据整理为模型需要的形状格式
PackActionInputs: 将数据打包为模型可直接使用的格式

训练与测试管道的差异

训练和测试阶段通常需要不同的数据处理策略，主要体现在帧采样方式上：

训练阶段采样

dict(type='SampleFrames', clip_len=32, frame_interval=2, num_clips=1)

这种配置会随机采样一个包含32帧的片段，帧间隔为2。

测试阶段采样

dict(
    type='SampleFrames',
    clip_len=32,
    frame_interval=2,
    num_clips=10,
    test_mode=True)

测试时通常会采样多个片段（这里是10个）并均匀分布在视频中，test_mode=True 确保采样的确定性。

自定义数据转换步骤

当内置转换步骤不能满足需求时，可以创建自定义转换器。以下是实现步骤：

创建新的转换器类，继承自 BaseTransform
实现 transform 方法，处理输入字典并返回处理后的字典
使用装饰器注册转换器
在 __init__.py 中导入新转换器
在配置文件中使用新转换器

示例代码：

from mmcv.transforms import BaseTransform
from mmaction.datasets import TRANSFORMS

@TRANSFORMS.register_module()
class MyTransform(BaseTransform):
    def __init__(self, msg):
        self.msg = msg

    def transform(self, results):
        # 修改results字典
        print(self.msg, 'MMAction2.')
        return results