MMAction:基于PyTorch的动作理解开源工具箱
1. 项目基础介绍及编程语言
MMAction 是一个基于 PyTorch 的动作理解开源工具箱,由多媒体实验室(Multimedia Laboratory, CUHK)开发。它是 open-mmlab 项目的一部分,旨在为动作识别、动作检测等任务提供高效、灵活的工具。项目主要使用 Python 编程语言,同时使用 Cuda、C++ 和 Shell 脚本进行部分实现。
2. 项目核心功能
MMAction 的核心功能包括:
- 动作识别:从剪辑视频中识别动作。
- 动作定位:在未剪辑视频中检测动作。
- 空间时间动作检测:在未剪辑视频中进行空间时间动作的检测。
此外,MMAction 支持多种数据集,并实现了多种动作理解框架,如:
- 动作识别框架:TSN、I3D、SlowFast、R(2+1)D、CSN 等。
- 动作检测框架:SSN。
- 空间时间原子动作检测框架:Fast-RCNN 基线。
项目采用模块化设计,使得不同任务之间可以共享模块,如骨架、长期和短期采样方案等,从而提高模型的性能。
3. 项目最近更新的功能
- OmniSource 模型发布(2020年8月22日):发布了与 Kinetics-400 和 OmniSourced 网络数据集联合训练的多个模型,这些模型在动作识别任务上表现出色,并在其他任务上具有很好的迁移性。
- v0.2.0 版本更新(2020年3月15日):为动作识别构建了一个多样化的模型库,包括 TSN、I3D、SlowFast、R(2+1)D、CSN 等流行算法,性能与原始论文相当或更好。
- v0.1.0 版本发布(2019年6月19日):MMAction 正式上线,提供了模型库、数据准备、开始使用等详细文档和示例。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考