【行为识别】ST-GCN

香港中大-商汤科技联合实验室在2018 AAAI 会议上发表论文“Spatial Temporal Graph Convolutional Networks for Skeleton Based Action Recognition”,提出时空图卷积网络模型ST-GCN,用于解决基于人体骨架关键点的人类动作识别问题。

论文链接:https://arxiv.org/abs/1801.07455

代码链接:https://github.com/yysijie/st-gcn

一.介绍

近年来,人类动作识别已成为活跃的研究领域,因为它在视频理解中起着重要作用。一般而言,人类行为可以从多种形式中识别,例如外观、深度、 光流和人体骨架。在这些方式中,动态的人体骨架通常传达重要的信息,这些信息是其他信息的补充。但是,与外观和光流相比,动态骨架的建模受到的关注相对较少。

动态骨架模态可以由人类关节位置的时间序列,以2D或3D坐标的形式自然地表示,然后可以通过分析其动作模式来识别其动作。大多数现有方法都依靠手工制作的身体部位或规则来分析空间模式。结果,为特定应用设计的模型很难推广到其他应用。

港中文团队提出通过将图神经网络扩展到称为时空图卷积网络(ST-GCN)的时空图模型,来设计用于动作识别的骨架序列的通用表示。如下图所示:

以骨架图序列为基础,其中每个节点对应于人体的一个关节。边有2种类型。

空间边:与关节的自然连通性相符的边;

时间边:在连续的时间步长上连接相同关节的边。

借助图结构可以构造多层的空间时间图卷积,允许沿空间和时间维度整合信息。

二.相关工作

应用于图的神经网络

构造GCN通常遵循2个方面:1)频谱视角,以频谱分析的形式考虑了图卷积的局部性;2)空间视角,将卷积滤波器直接应用于图的节点及其邻域。本文采用空间视角。通过将滤波器的作用于每个节点的1-neighbor,在空间域上构造CNN过滤器。 

基于骨架的动作识别

人体的骨架和关节轨迹对于光照变化和场景变化具有鲁棒性,并且借助高精度的深度传感器或姿势估计算法,骨架和关节轨迹易于获得。因此,存在多种基于骨架的动作识别方法,这些方法可以分为基于手工特征的方法和深度学习方法。

基于手工特征的方法设计一些手工特征来捕获关节运动的动态信息,手工特征可能是关节轨迹的协方差矩阵,关节的相对位置或身体各部位之间的旋转和平移。基于深度学习的方法使用RNN和Temporal CNN,以端到端的方式学习动作识别模型。

三.ST-GCN

3.1 Pipeline

骨架数据可以从运动捕获设备中获取,也可以从视频中通过姿势估计算法获取。通常,数据是帧序列,每个帧有1组关节坐标集合。给定2D或3D坐标形式的人体关节序列,构建一个时空图以关节为图(Graph)节点,以身体部位结构间的自然连通性和时间作为图的边。

ST-GCN的输入是图节点上的关节坐标矢量。输入数据经过多层时空图卷积操作在图上生成更高级别的特征图。然后,通过的SoftMax分类器分类为相应的动作类别。整个模型通过反向传播,以端到端的方式进行训练。

3.2 Skeleton Graph Construction

利用时空图来形成骨架序列的层次表示。具体地,在具有N个关节的T帧的骨架序列上构造无向时空图 G =(V, E),T帧骨架同时具有体内和帧间连接。

在G中,节点集合V=\left \{ v_{ti} | t=1,...,T;i=1,..,N\right \}包括骨架序列中的所有关节。作为ST-GCN的输入,节点上的特征矢量

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值