香港中大-商汤科技联合实验室在2018 AAAI 会议上发表论文“Spatial Temporal Graph Convolutional Networks for Skeleton Based Action Recognition”,提出时空图卷积网络模型ST-GCN,用于解决基于人体骨架关键点的人类动作识别问题。

论文链接:https://arxiv.org/abs/1801.07455
代码链接:https://github.com/yysijie/st-gcn
一.介绍
近年来,人类动作识别已成为活跃的研究领域,因为它在视频理解中起着重要作用。一般而言,人类行为可以从多种形式中识别,例如外观、深度、 光流和人体骨架。在这些方式中,动态的人体骨架通常传达重要的信息,这些信息是其他信息的补充。但是,与外观和光流相比,动态骨架的建模受到的关注相对较少。
动态骨架模态可以由人类关节位置的时间序列,以2D或3D坐标的形式自然地表示,然后可以通过分析其动作模式来识别其动作。大多数现有方法都依靠手工制作的身体部位或规则来分析空间模式。结果,为特定应用设计的模型很难推广到其他应用。
港中文团队提出通过将图神经网络扩展到称为时空图卷积网络(ST-GCN)的时空图模型,来设计用于动作识别的骨架序列的通用表示。如下图所示:

以骨架图序列为基础,其中每个节点对应于人体的一个关节。边有2种类型。
空间边:与关节的自然连通性相符的边;
时间边:在连续的时间步长上连接相同关节的边。
借助图结构可以构造多层的空间时间图卷积,允许沿空间和时间维度整合信息。
二.相关工作
应用于图的神经网络
构造GCN通常遵循2个方面:1)频谱视角,以频谱分析的形式考虑了图卷积的局部性;2)空间视角,将卷积滤波器直接应用于图的节点及其邻域。本文采用空间视角。通过将滤波器的作用于每个节点的1-neighbor,在空间域上构造CNN过滤器。
基于骨架的动作识别
人体的骨架和关节轨迹对于光照变化和场景变化具有鲁棒性,并且借助高精度的深度传感器或姿势估计算法,骨架和关节轨迹易于获得。因此,存在多种基于骨架的动作识别方法,这些方法可以分为基于手工特征的方法和深度学习方法。
基于手工特征的方法设计一些手工特征来捕获关节运动的动态信息,手工特征可能是关节轨迹的协方差矩阵,关节的相对位置或身体各部位之间的旋转和平移。基于深度学习的方法使用RNN和Temporal CNN,以端到端的方式学习动作识别模型。
三.ST-GCN
3.1 Pipeline
骨架数据可以从运动捕获设备中获取,也可以从视频中通过姿势估计算法获取。通常,数据是帧序列,每个帧有1组关节坐标集合。给定2D或3D坐标形式的人体关节序列,构建一个时空图以关节为图(Graph)节点,以身体部位结构间的自然连通性和时间作为图的边。
ST-GCN的输入是图节点上的关节坐标矢量。输入数据经过多层时空图卷积操作在图上生成更高级别的特征图。然后,通过的SoftMax分类器分类为相应的动作类别。整个模型通过反向传播,以端到端的方式进行训练。
3.2 Skeleton Graph Construction
利用时空图来形成骨架序列的层次表示。具体地,在具有N个关节的T帧的骨架序列上构造无向时空图 G =(V, E),T帧骨架同时具有体内和帧间连接。
在G中,节点集合包括骨架序列中的所有关节。作为ST-GCN的输入,节点上的特征矢量

最低0.47元/天 解锁文章
3876

被折叠的 条评论
为什么被折叠?



