文章目录
引言
在计算机视觉的相关研究中,人体的动作、行为识别是一个基础研究问题。但目前识别、检测人类的动作/行为仍然是一个巨大的挑战。这里整理下当前相关的细分任务、数据集和开源代码(更新至2021年2月份)。
动作识别、动作检测相关任务
Action Recognition/Classification动作识别
https://paperswithcode.com/task/action-classificationSkeleton Based Action Recognition基于骨架的动作识别
https://paperswithcode.com/task/skeleton-based-action-recognitionActivity Recognition行为识别Temporal Action Detection时域动作检测Spatial Temporal Action Detection时空动作检测,同一时刻多人不同动作的场景Video Classification
https://paperswithcode.com/task/video-classification
动作识别 vs. 行为识别
- 动作识别一般比行为识别的表达粒度更细,侧重一个单一的动作模式,而行为的范畴更广,可能是多个人、多个动作的组合,构成一个行为。
- 当前大多数据集没有对动作、行为进行严格的区分,通过对数据集中的视频片段或视频片段中的目标分配一个标签,类似图像分类器。
- 而且现在的算法大多是用深度学习来提取时序特征,所以并未关注具体的动作/行为在空间、时间维度上模式的区别。
相关数据集1
视频理解数据集对比
从规模和数量上对比,当前主流数据集比较如下图2:

- 可以看出,从数据集的样本规模、每个类别的数量、覆盖的目标和场景数量来说,当前数据最丰富的是Moments,其次是Kinetics、AVA、Something、Charades,现在这几个数据集用的比较多。
从标注信息的角度来说,当前主流数据集比较如下图3:

- 当前HVU在语义标注方面,包含场景、对象、动作、事件、属性和概念类别,比其他数据集的标注角度更多。
动作/行为识别数据集 Action Recognition /Classification
Kinetics-[400/600/700] 数据集
- 视频来源于YouTube,一共有400/600/700个类别,每个类别至少600个视频以上,每段视频持续10秒左右,数据集很大。
- 类别主要分为三大类:人与物互动,比如演奏乐器;人人互动,比如握手、拥抱;运动等。即person、person-person、person-object。

Something-Something V1/V2 数据集
[V1 link] (ICCV’2017)
[V2 link]
该数据集收集了人类对日常物体执行预定义的基本动作。
视频总数 220,847
训练集 168,913
验证集 24,777
测试集(不带标签) 27,157
标签 174

Charades 数据集
[link] [ECCV2016]
通过Amazon Mechanical Turk收集的日常室内活动视频组成的数据集。Charades比Kinetics数据集中的人类行为持续时间更长。
数据集包含:
157个动作类别的66,500个时间注释
46个物体类别的41,104个标签
27,847个视频的文本描述。

本文介绍了计算机视觉领域的动作识别和行为识别任务,以及相关数据集,如Kinetics、Something-Something、Charades、Moments in Time等。这些数据集在规模、标注信息上各有特点,提供了丰富的视频理解资源。此外,还提及了Jester手势、FineGym等特定动作数据集。最后,列举了mmaction2和PySlowFast等开源代码库,用于实现多种动作识别和检测算法。
最低0.47元/天 解锁文章
1247





