MMAction2 视频理解框架快速入门指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00758/article/details/148523923

MMAction2 视频理解框架快速入门指南

mmaction2 OpenMMLab's Next Generation Video Understanding Toolbox and Benchmark 项目地址: https://gitcode.com/gh_mirrors/mm/mmaction2

前言

MMAction2 是一个基于 PyTorch 的开源视频理解工具库，专注于动作识别、时序动作检测等视频分析任务。本文将带您快速上手 MMAction2 的核心功能，包括模型推理、数据集准备、配置修改、训练和测试等完整流程。

环境准备

在开始之前，请确保您已经按照官方文档完成了 MMAction2 的源码安装。建议使用 Python 3.7+ 和 PyTorch 1.8+ 环境。

快速体验模型推理

MMAction2 提供了便捷的推理接口，我们可以直接使用预训练模型对视频进行动作识别：

python demo/demo_inferencer.py demo/demo.mp4 \
    --rec tsn --print-result \
    --label-file tools/data/kinetics/label_map_k400.txt

执行后，您将看到：

弹出视频播放窗口
控制台输出识别结果，包含预测的动作类别和置信度

对于没有 GUI 的环境（如远程服务器），可以省略视频显示功能，仅查看识别结果。

准备自定义数据集

为了训练自定义模型，我们需要准备数据集。MMAction2 支持多种视频数据集格式，并提供了统一的数据预处理流程。

以 Kinetics400 微型数据集为例：

下载并解压预处理的微型数据集
数据集目录结构应包含：
- train/ 和 val/ 子目录存放视频文件
- 标注文件（如 kinetics_tiny_train_video.txt）

配置文件详解与修改

MMAction2 采用模块化的配置文件系统，我们可以基于现有配置进行修改：

数据集配置修改

修改配置文件中的以下关键参数：

data_root = 'data/kinetics400_tiny/train'
data_root_val = 'data/kinetics400_tiny/val'
ann_file_train = 'data/kinetics400_tiny/kinetics_tiny_train_video.txt'
ann_file_val = 'data/kinetics400_tiny/kinetics_tiny_val_video.txt'

训练参数调整

针对微型数据集，建议调整：

批量大小（batch_size）减小为4
训练周期（epochs）设为10
验证间隔（val_interval）设为1
学习率调度策略相应调整

模型配置修改

由于数据集类别变化，需要调整分类头：

model = dict(cls_head=dict(num_classes=2))
load_from = '预训练模型路径'

数据集可视化

在正式训练前，建议先可视化数据增强效果：

python tools/visualizations/browse_dataset.py \
    configs/recognition/tsn/tsn_imagenet-pretrained-r50_8xb32-1x1x3-100e_kinetics400-rgb.py \
    browse_out --mode pipeline

此操作可以：

检查数据预处理流程是否正确
验证数据增强效果是否符合预期
确认标注信息是否准确

模型训练

启动训练命令：

python tools/train.py configs/recognition/tsn/tsn_imagenet-pretrained-r50_8xb32-1x1x3-100e_kinetics400-rgb.py

训练过程中会输出：

当前学习率
训练损失值
Top1/Top5准确率
显存占用情况
梯度范数等信息

训练完成后，模型权重和日志会保存在 work_dirs 目录下。

模型测试与评估

使用最佳模型进行测试：

python tools/test.py configs/recognition/tsn/tsn_imagenet-pretrained-r50_8xb32-1x1x3-100e_kinetics400-rgb.py \
    work_dirs/tsn_imagenet-pretrained-r50_8xb32-1x1x3-100e_kinetics400-rgb/best_acc/top1_epoch_6.pth

测试结果会显示模型在验证集上的各项指标，包括：