Abstract
动态人体骨架为行为识别承载着重要的信息。传统的骨架建模方法通常依赖于手工设计的部件与便利规则,这导致了表达能力的限制与通用性的难题。本文中,我们提出了一种先进的动态骨架模型称为Spatial-Temporal Graph Convolutional Networks(ST-GCN),这种方法通过自适应学习数据的空间与时间模式来解决之前方法的局限性。这种提法不仅带来了更好的表达能力,而且也有更好的通用能力。在Kinetics与NTU-RGBD两大数据集上,与主流方法相比都取得了实质的改进。
1、Introduction
行为识别近些年成为了活跃的研究领域,它在视频理解领域扮演了重要的角色。通常来说,认得行为可以从多种形式进行识别(Simonyan and Zisserman 2014; Tran et al. 2015; Wang, Qiao, and Tang 2015; Wang et al.2016; Zhao et al. 2017),例如外观、深度、光流与人体骨架(Du, Wang, and Wang 2015;Liu et al. 2016)。这些方法中,动态骨架法包含的重要信息与其它方法相比更充足。然而,动态骨架建模的方法与基于外观或者光流的方法相比获得的关注较少。本文中,我们系统的研究了这些方法,目标是研发一种重要且有效的基于动态骨架建模的方法,并且将这种方法应用到行为识别中。
动态骨骼模型可以自然地表示为一系列人类关节位置的时间序列,以二维或三维坐标的形式表示。人类的行为可以通过分析其运动模式来识别。早期的利用骨骼进行动作识别的方法是简单地利用各个时间步长的关节坐标来形成特征向量,并对其进行时间分析(Wang et al. 2012; Fernando et al. 2015)。这些方法的能力有限,因为它们没有明确地利用关节之间的空间关系,而这些关系对于理解人类行为至关重要。最近,尝试利用关节间自然连接的新方法被开发出来(Shahroudy et al. 2016; Du, Wang, and Wang 2015)。这些方法显示出令人鼓舞的改进,这说明了连接性的重要性。然而,大多数现有的方法依赖于手工制作的部件或规则来分析空间模式。因此,为特定应用程序设计的模型很难推广到其他应用程序。
为了超越这些限制,我们需要一种新的方法,可以自动捕获嵌入在关节空间配置及其时间动态的模式。这就是深度神经网络的优势。然而,如前所述,骨架是图的形式,而不是2D或3D网格,这使得使用当前卷积网络等成熟模型变得困难。近年来,图神经网络(Graph Neural networks, GCNs)将卷积神经网络(convolutional Neural networks, CNNs)推广到任意结构的图上,受到越来越多的关注,并成功应用于图像分类(Bruna et al. 2014)、文档分类(Defferrard, Bresson, and Vandergheynst 2016)、半监督学习(Kipf and Welling 2017)等诸多领域。然而,这条线上的许多先前的工作都假设一个固定的图作为输入。GCNs在大型数据集(如人类骨骼序列)上对动态图建模的应用还有待探索。
本文提出将图神经网络扩展到一个时空图模型,即时空图卷积网络(ST-GCN),设计一个用于动作识别的骨架序列的通用表示。如图1所示,该模型建立在一系列骨架图的顶部,其中每个节点对应于人体的一个关节。有两种类型的边缘,即符合关节自然连接的空间边缘和跨越连续时间步长的连接相同关节的时间边缘。在此基础上构造了多层时空图卷积,实现了信息在时空维度上的集成。
ST-GCN的层次结构特性消除了手工编写部分分配或遍历规则的需求。这不仅导致了更强的表达能力和更高的性能(如我们的实验所示),而且还使它易于推广到不同的上下文。在通用的GCN公式的基础上,研究了基于图像模型的图卷积核设计新策略。
本工作的主要贡献在于三个方面:1)我们提出了ST-GCN,这是一个通用的基于图的动态骨架建模方法,它是第一个将基于图的神经网络应用于此任务的模型。2)根据骨架建模的具体要求,提出了ST-GCN中卷积核设计的若干原则。3)在两个大规模的基于骨架的动作识别数据集上,与之前使用手工制作的部件或遍历规则的方法相比,该模型取得了更好的性能,并且在手工设计方面的工作量大大减少。ST-GCN的代码和模型已经开源。
2、Related Work
Neural Networks on Graphs。将神经网络推广到具有图结构的数据是深度学习研究的一个新兴课题。所讨论的神经网络结构包括递归神经网络和递归神经网络(Tai,Socher, and Manning 2015; Van Oord, Kalchbrenner, and Kavukcuoglu 2016)和卷积神经网络(CNNs) (Bruna et al. 2014; Henaff, Bruna, and LeCun 2015;Duvenaud et al. 2015; Li et al. 2016; Defferrard, Bresson,and Vandergheynst 2016)。这项工作更多地涉及到CNNs或图卷积网络(GCNs)的泛化。图上构造GCNs的原理一般有两种:1)光谱视角,以光谱分析的形式考虑图卷积的局部性(Henaff, Bruna, and LeCun 2015;Duvenaud et al. 2015;Li et al. 2016;Kipf和Welling 2017);2)空间视角,即在图节点及其相邻节点上直接应用卷积滤波器(Bruna et al. 2014;Niepert, Ahmed和Kutzkov 2016)。本文遵循第二种思路。我们在空间域上构造CNN过滤器,将每个过滤器的应用限制在每个节点的1个邻域节点上。
Skeleton Based Action Recogntion。人体的骨骼和关节轨迹对光照变化和场景变化具有较强的鲁棒性,并且由于高度精确的深度传感器或姿态估计算法而易于获得(Shotton et al. 2011; Cao et al. 2017a)。因此,有许多基于骨架的动作识别方法。这些方法可以分为基于手工特征的方法和深度学习方法。第一种方法设计了几个手工制作的特性来捕捉关节运动的动态。这些可能是关节轨迹的协方差矩阵(Hussein et al.,2013),关节的相对位置(Wang et al.,2012),或者是身体部分之间的旋转和平移(Vemulapalli, Arrate, and Chellappa, 2014)。最近深度学习的成功导致了基于深度学习的骨架建模方法的兴起。这些工作已经使用递归神经网络(Shahroudy et al. 2016;Zhu et al. 2016; Liu et al. 2016; Zhang, Liu, and Xiao 2017)和时间序列CNNs(Li et al. 2017; Ke et al. 2017;Kim and Reiter 2017)来学习端到端的动作识别模型。在这些方法中,很多都强调了人体关节建模的重要性。但是这些部分通常是使用领域知识显式分配的。我们的ST-GCN是第一个将图CNNs应用到基于骨架的动作识别任务中的系统。与以前的方法不同的是,它可以通过利用图卷积的局部性和时间动态来隐式地学习局部信息。通过消除对手工部件分配的需要,模型更容易设计,并有效地学习更好的动作表示。
3、Spatial Temporal Graph ConvNet
在进行活动时,人类的关节会以小组的形式移动,这被称为“身体部位”。现有的基于骨骼的动作识别方法已经验证了在建模中引入身体部位的有效性(Shahroudy et al. 2016; Liu et al. 2016; Zhang, Liu, and Xiao 2017)。我们认为,这种改进主要是由于局部区域内关节轨迹的建模与整个骨架相比受到限制,从而形成了骨架序列的层次表示。在图像对象识别等任务中,层次表示和局部化通常是通过卷积神经网络(Krizhevsky, Sutskever, Hinton 2012)的固有特性实现的,而不是手工分配对象部件。这促使我们将CNNs的这个有吸引力的思路引入到基于骨架的动作识别中。这次尝试的结果是ST-GCN模型。
3.1Pipline Overview
基于骨架的数据可以从动作捕捉设备中获取,也可以从视频中获取姿态估计算法。通常数据是一系列的帧,每一帧都有一组关节坐标。给出了二维或三维坐标形式的人体关节序列,构造了以关节为图节点,以人体结构和时间的自然连接性为图边的时空图。因此,ST-GCN的输入是图节点上的联合坐标向量。这可以看作是一种基于图像的CNNs的模拟,其中输入是由驻留在二维图像网格上的像素强度向量形成的。对输入数据进行多层时空图卷积运算,生成更高层次的特征图。然后通过标准的SoftMax分类器将其分类为相应的动作类别。整个模型采用端到端反向传播的方式进行训练。现在我们将讨论ST-GCN模型中的组件。
3.2Skeleton Graph Construction
骨架序列通常由每个坐标系中每个人体关节的二维或三维坐标表示。之前使用卷积进行骨骼动作识别的工作(Kim和Reiter 2017)将所有关节的坐标向量串联起来,形成每帧一个特征向量。在我们的工作中,我们利用时空图来形成骨架序列的层次表示。详细来说,我们在具有N个关节和T个框架的骨架序列上构造了一个无向时空图G = (V, E)。
图中,节点集为包含骨架序列中的所有节点的![]()
表示。作为ST-GCN的输入,节点F(vti)上的特征向量由第t帧上第i个关节的坐标向量和估计置信度组成。我们用两个步骤来构造骨架序列的时空图。首先,根据人体结构的连通性,将一帧内的关节用边连接,如图1所示。然后在连续的帧中,每个关节都连接到同一个关节上。因此,此设置中的连接是在没有手动分配部分的情况下自然定义的。这也使得网络架构能够处理具有不同数量的节点或连接度的数据集。例如,在Kinetics数据集上,我们使用OpenPose (Cao et al. 2017b)工具箱中输出18个关节的2D位姿估计结果,而在NTU-RGB+D数据集(Shahroudy et al. 2016)上,我们使用3D关节跟踪结果作为输入,生成25个关节。ST-GCN可以在这两种情况下运行,并提供一致的优越性能。构建的时空图如图1所示。形式上,边缘集E由两个子集组成,第一个子集描述了每一帧的骨架连接,表示为
。因此,对于一个特定的关节,EF中的所有边都表示它随时间的轨迹。

3.3Spatial Graph Convolutional Neural Network
在深入研究成熟的ST-GCN之前,我们首先看一下在单一框架内的CNN模型图。在这种情况下,单帧在时间τ,会有N个联合节点Vt,以及骨架边ES(τ)= {vtivtj | t =τ,(i, j)∈H}。回想一下在二维自然图像或特征图上卷积运算的定义,它们都可以被视为二维网格。卷积运算的输出特征图也是一个二维网格。使用stride 1和适当的padding,输出feature map的大小可以与输入feature map的大小相同。我们将在下面的讨论中假设满足这个条件。给定一个核大小为K×K的卷积算子和一个通道数为c的输入特征图fin。单个通道在空间位置x处的输出值可以表示为:
![]()
这里采样函数p:Z2 × Z2 → Z2遍历了位置x的所有相邻节点。作为图像卷积,还可以表示为 ![]()
。权重函数
提供c维实空间中的权向量,用于计算与采样的c维输入特征向量的内积。注意,权值函数与输入位置x无关,因此过滤器的权值在输入图像的每个位置共享。因此,通过在p(x)中编码一个矩形网格来实现图像域的标准卷积。该配方更详细的解释和其他应用可以在(Dai et al. 2017)中找到。然后,通过将上述公式扩展到输入特征图位于空间图Vt上的情况来定义图的卷积运算。因此,特征图
在图的每个节点上都有一个向量。扩展的下一步是重新定义采样函数p和权值函数w。
Sampling function。在图像上,采样函数p(h, w)是在相对于中心位置x的相邻像素上定义的。在图上,我们可以相似的定义采样函数在节点
的邻域集为
。这里
表示从
到
的最小路径长度。因此采样函数
可以写为:
![]()
本文中我们所有情况下都是用D=1,因此,是所有节点的相邻节点。高维的D作为后续的工作。
Weight function。与采样函数相比,权重函数的定义更加复杂。在二维卷积中,中心位置周围自然存在一个刚性网格。所以相邻像素的空间顺序是固定的。然后根据空间顺序为(c, K, K)维的张量建立索引来实现权重函数。对于一般的图,比如我们刚才构造的图,没有这样的隐式排列。该问题的解决方案首先在(Niepert、Ahmed和Kutzkov 2016)中进行了研究,其中顺序由根节点周围的邻居图中的图标记过程定义。我们按照这个思路来构造我们的权函数。我们没有给每个邻居节点一个唯一的标记,而是通过将一个联合节点vti的邻居集B(vti)划分为固定数量的K个子集来简化这个过程,其中每个子集都有一个数字标签。因此,我们有图
,将邻居中的节点映射到其子集标签。权重函数
可以通过索引一个(c, K)维的张量来实现或者:
![]()
我们将在第3.4节中讨论几种分区策略。
Spatial Graph Convolution。利用改进的采样函数和权重函数,我们现在将公式1用图卷积的形式重写为:
![]()
这里归一化表示为
等于对应子集的基数。添加这一项是为了平衡不同子集对输出的贡献。将式2和式3代入式4,得到:
![]()
值得注意的是,这个公式可以类似于标准的二维卷积,如果我们把一个图像作为一个常规的二维网格。例如,为了模拟一个3×3的卷积运算,我们在以一个像素为中心的3×3网格中有一个9像素的邻居。然后将邻居集划分为9个子集,每个子集都有一个像素。
Spatial Temporal Modeling。在建立了空间图CNN之后,我们现在开始建模骨架序列中的时空变化。回想一下,在构建图的过程中,图的时间方面是通过跨连续帧连接相同的节点来构建的。这使我们能够定义一个非常简单的策略,将空间图CNN扩展到时空域。也就是说,我们将邻域的概念扩展到包括临时连接的关节:
![]()
参数r控制邻居图中包含的时间范围,因此可以称为时间内核大小。为了完成时空图的卷积运算,我们还需要采样函数(与空间情况相同)和权重函数(特别是标记图lST)。因为时间轴是有序的,我们直接修改标签图lST为一个基于vti的时空邻域:
![]()
这里
是vti的单帧标签映射。通过这种方法,我们对所构建的时空图进行了良好定义的卷积运算。
3.4Partition Strategies
考虑到时空图卷积的高级形式,设计一个分区策略来实现标签映射l是很重要的。在这项工作中,我们探索了几种分区策略。为简单起见,我们只讨论单个框架中的案例,因为它们可以使用公式7自然地扩展到时空域。
Uni-labeling。最简单、最直接的分区策略是使用子集,即整个邻居集本身。在该策略中,每个相邻节点上的特征向量都有一个具有相同权向量的内积。实际上,这种策略类似于(Kipf和Welling 2017)中引入的传播规则。该策略的一个明显缺点是,在单帧情况下,使用该策略等价于计算所有相邻节点的权向量与平均特征向量的内积。这对于骨架序列分类来说是次优的,因为在这个操作中可能会丢失局部微分性质。通常,我们设K=1并且
。
Distance partitioning。另一种自然分区策略是根据节点到根节点vti的距离
对邻居集进行分区。本文中,因为我们设置了D = 1,所以邻居集将被分成两个子集,其中D = 0表示根节点本身,其余的邻居节点属于D = 1子集。因此,我们将有两个不同的权重向量,它们能够建模局部微分性质,如关节之间的相对平移。形式上,我们有K = 2和
。
Spatial configuration partitioning。由于人体骨骼是空间定位的,我们仍然可以在分割过程中利用这种特定的空间配置。我们设计了一个策略,将邻居集分成三个子集:1)根节点本身;2)向心群:比根节点更靠近骨架重心的相邻节点;3)否则为离心组。在这里,框架中所有关节的平均坐标被视为其重心。这一策略的灵感来自于这样一个事实,即身体部位的运动可以大致分为同心和偏心运动。形式上,我们有:

这里ri是训练集中所有帧从重心到关节i的平均距离。
三种划分策略的可视化如图3所示。我们将在基于骨骼的动作识别实验上对所提出的动作分配策略进行实证实验。一个更高级的分区策略将会带来更好的建模能力和识别性能。

3.5Learnable edge importance weighting
虽然人们在做动作时关节会成群移动,但一个关节可能出现在多个身体部位。然而,这些外观在建模这些部分的动态时应该具有不同的重要性。在这个意义上,我们在时空图卷积的每一层上都添加了一个可学习的掩码M。该掩码根据ES中每个空间图边缘的学习重要性权重,将一个节点的特征对其邻近节点的贡献进行缩放。实验结果表明,增加该掩模可以进一步提高ST-GCN的识别性能。因此,也可以有一个数据依赖的注意力地图。我们把这个留给以后的工作。
3.6Implementing ST-GCN
图形卷积的实现并不像2D或3D卷积那样简单。在这里,我们提供了实现基于骨架的动作识别的ST-GCN的细节。我们采用了与(Kipf和Welling 2017)类似的图卷积实现。一帧内关节的体内连接由一个邻接矩阵a和一个表示自连接的单位矩阵I表示。在单帧情况下,具有第一个分区策略的ST-GCN可以通过以下公式实现(Kipf和Welling 2017):
![]()
这里
。这里将多个输出通道的权向量叠加形成权矩阵w。实际上,在时空情况下,我们可以将输入特征图表示为一个(C, V, T)维张量。图卷积通过进行标准的
2D卷积实现,并将结果张量与正则化的邻接矩阵
在第二个维度相乘。
对于具有多个子集的分区策略,即,距离分区和空间配置分区,我们再次利用这个实现。但是现在邻接矩阵在满足 拆分成了几个矩阵 。等式9转换成:
![]()
类似的
。这里我们设置α=0.001来避免
为空。
实现可学习的边缘重要性加权非常简单。对于每个邻接矩阵,我们用一个可学习的权值矩阵M来表示它。我们将矩阵A+I带入等式9,Aj中的Aj带入等式10,
且
。这里
表示两个矩阵的点乘。掩模M初始化为一个全一矩阵。
Network architecture and training。由于ST-GCN在不同节点上共享权值,因此在不同节点上保持输入数据的规模一致是很重要的。在我们的实验中,我们首先将输入的骨架输入到一个批处理的归一化层来对数据进行归一化。ST-GCN模型由9层时空图卷积算子(ST-GCN单位)组成。前三层有64个通道用于输出。以下三层有128个通道用于输出。最后三层有256个输出通道。这些层有9个临时内核大小。Resnet机制应用于每个ST-GCN单元。在每个ST-GCN单元后,我们以0.5的概率随机dropout特征,以避免过拟合。第4和第7时域卷积层的步长设置为2为池化层。然后,对得到的张量进行全局pooling,得到每个序列的256维特征向量。最后,我们将它们提供给SoftMax分类器。模型采用随机梯度下降法学习,学习速度为0.01。每过10个epochs,我们的学习率就会降低0.1。为了避免过拟合,我们在动力学数据集上进行训练时,使用两种增强来代替dropout层(Kay et al.,2017)。首先,为了模拟摄像机的运动,我们对所有帧的骨架序列进行随机仿射变换。特别是从第一帧到最后一帧,我们选取几个固定角度、平移和比例因子作为候选,然后随机抽取三个因子的两个组合来生成仿射变换。这种转换被插入到中间帧中,以产生一种效果,就像我们在回放过程中平滑地移动视图点一样。我们把这种增强称为随机移动。其次,我们在训练中从原始骨架序列中随机抽取片段,并在测试中使用所有帧。网络顶部的全局池使网络能够处理不确定长度的输入序列。
4、Experiments
在本节中,我们将评估ST-GCN在基于骨骼的动作识别实验中的性能。我们在两个具有巨大不同属性的大型动作识别数据集上进行了实验:人类动作数据集(Kinetics) (Kay et al. 2017)是迄今为止最大的无约束动作识别数据集,而NTU-RGB+D (Shahroudy et al. 2016)是最大的内部捕获动作识别数据集。特别是,我们首先对动力学数据集进行详细的消融研究,以检查所提出的模型组件对识别性能的贡献。然后,我们将ST-GCN的识别结果与其他最先进的方法和其他输入模式进行比较。为了验证我们在无约束设置上获得的经验是否通用,我们在NTU-RGB+D上进行了约束设置的实验,并将ST-GCN与其他最先进的方法进行了比较。所有的实验都在PyTorch深度学习框架上进行,使用了8个TITANX GPUs。
4.1Dataset & Evaluation Metrics
Kinetics。Deepmind Kinetics human action数据集(Kay et al. 2017)包含了从YouTube上检索到的大约300,000个视频剪辑。这些视频覆盖了多达400个人类动作类,从日常活动、体育场景到复杂的互动动作。Kinectics中的每个片段持续约10秒。
这个动力学数据集只提供了原始的视频剪辑,没有骨架数据。在这项工作中,我们将重点放在基于骨骼的动作识别上,因此我们使用像素坐标系中估计的关节位置作为输入,并放弃原始的RGB帧。为了获得关节位置,我们首先将所有视频的分辨率调整为340×256,并将帧速率转换为30 FPS。然后我们使用公开可用的OpenPose (Cao等人2017b)工具箱来估计每帧剪辑上18个关节的位置。工具箱给出了像素坐标系中的二维坐标(X, Y)和18个人体关节的置信度得分C。因此,我们用一个(X, Y, C)的元组表示每个关节,一个骨架框架被记录为18个元组的数组。对于多人情况,我们在每个剪辑中选择平均关节置信度最高的2人。通过这种方式,一个带有T帧的剪辑被转换成这些元组的骨架序列。在实践中,我们用(3,T, 18, 2)维张量表示剪辑。为了简单起见,我们通过重新播放从开始到T = 300的序列来填充每个剪辑。我们将公布估计的关节位置重现的结果。
我们根据数据集作者推荐的top-1和top-5分类精度来评估识别性能(Kay等,2017)。数据集提供240,000个剪辑的训练集和20,000个验证集。我们在训练集上训练比较模型,并报告验证集的准确性。
NTU-RGB+D:NTU-RGB+D (Shahroudy et al. 2016)是目前最大的人工动作识别任务3D关节注释数据集。该数据集包含60个动作类中的56,000个动作剪辑。这些短片都是由40名志愿者在一个受限的实验室环境中拍摄的,同时记录了3个镜头。所提供的注释给出了3D关节位置(X, Y, Z)在摄像机坐标系统中,由Kinect深度传感器检测。在骨骼序列中,每个受试者有25个关节。每个剪辑最多保证有2个主题。
该数据集的作者推荐两个基准:1)跨学科(X-Sub)基准,包含40、320和16560个剪辑,用于训练和评估。在这种情况下,训练片段来自参与者的一个子集,模型根据剩余参与者的片段进行评估;2 ) crossview(X-View) 基准 37 岁 , 960 年 920 年 和 18 日 clips.该设置中的训练剪辑来自摄像机视图2和3,而评估剪辑都来自摄像机视图1。我们遵循这个惯例,并报告在这两个基准上的最高识别精度。

4.2Ablation Study
在本节中,我们通过Kinetics数据集上的动作识别实验来检验ST-GCN中提出的组件的有效性(Kay等,2017)。
Spatial temporal graph convolution。首先,我们评估使用时空图卷积运算的必要性。我们使用了一个基线网络架构(Kim和Reiter 2017),其中所有的时空卷积都被仅仅的时空卷积所取代。也就是说,我们将所有的输入节点位置连接起来,形成每一帧t的输入特征。然后,时域卷积将对这个输入进行操作,并随着时间进行卷积。我们称这个模型为“baseline TCN”。这种识别模型在NTU-RGB+D (Kim和Reiter 2017)等约束数据集上表现良好。从表1可以看出,采用时空图卷积的模型,采用合理的划分策略,在Kinetics数据集上始终优于基线模型。实际上,这个时域卷积等价于在一个全连通图上与未共享权值的时空图卷积。因此,基线模型与ST-GCN模型的主要区别在于卷积运算中稀疏的自然连接和共享的权值。此外,我们评估介于基线模型和ST-GCN之间的中间模型,称为“局部卷积”。在这个模型中,我们使用稀疏联合图作为ST-GCN,但是使用了具有非共享权值的卷积滤波器。我们认为基于ST-GCN模型的更好的性能可以证明在基于骨骼的动作识别中时空图卷积的能力。
Partition stategies。在这项工作中,我们提出了三种划分策略:1)统一标记;2)距离分区;3)空间配置划分。我们用这些划分策略来评估ST-GCN的性能。结果如表1所示。我们观察到,使用多个子集进行划分通常比使用单标记要好得多。这与统一标记的一个明显问题是一致的,即在卷积运算之前简单地对特征进行平均。根据这一观察结果,我们使用距离划分和单标记之间的中间值进行实验,称为“距离划分*”。在这个设置中,我们仅通过比例因子r1或w0 = =w1来绑定距离分区中两个子集的权重。这种设置仍然比单标记具有更好的性能,这再次说明了使用多个子集进行分区的重要性。在多子集分区策略中,空间配置分区具有更好的性能。这证实了我们设计这一策略的动机,其中考虑了同心和偏心运动模式。基于这些观察结果,我们在接下来的实验中使用了空间配置划分策略。
Learnable edge importance weighting。ST-GCN中的另一个组件是可学习的边缘重要性加权。我们在ST-GCN模型上进行了空间配置分区的实验。这被称为“ST-GCN+Imp”。见表1。考虑到高性能的普通ST-GCN,该组件仍然能够将识别性能提高1%以上。回想一下,这个组件的灵感来自于不同部分的关节具有不同的重要性。实践证明,该模型能较好地表达联合重要性,提高了识别性能。基于这一观察,我们总是将此组件与ST-GCN一起使用,并与其他最先进的模型进行比较。
4.3Comparison with State of the Arts
为了验证ST-GCN在无约束和约束环境下的性能,我们分别对Kinetics数据集(Kay等,2017)和NTU-RGB+D数据集(Shahroudy等,2016)进行了实验。
Knietics。在动力学方面,我们比较了基于骨架的动作识别的三种特征方法。第一个是手工特征的特征编码方法(Fernando et al. 2015),在表2中称为“特征编码”。我们还实施了两种基于动力学的深度学习方法,即deep LSTM (Shahroudy et al. 2016)和Temporal ConvNet (Kim and Reiter 2017)。我们比较了这两种方法在识别性能上的前1名和前5名。在表2中,ST-GCN能够超越以前有代表性的方法。参考文献,我们列出了(Kay等,2017)中使用RGB帧和光流进行识别的性能。
NTU-RGB+D。NTU-RGB+D数据集是在约束环境中捕获的,这允许需要稳定的骨架序列才能正常工作的方法。我们还将ST-GCN模型与该数据集上以前最先进的方法进行了比较。由于该数据集的约束性质,我们在训练ST-GCN模型时不使用任何数据扩充。We 遵循 标准 的 实践 跨学科 文献 报告 (X-Sub) 、 crossview (X-View) 识别 性能 的 最高 1 accuracies. 分类The 相比 方法 包括 Lie Group (Veeriah, Zhuang, Qi 2015 ), Hierarchical RNN (Du, Wang, Wang 2015 ), Deep LSTM (Shahroudy 等 人 2016 年 ), Part-Aware LSTM (PA-LSTM) (Shahroudy 等 人 2016 年 ), Spatial Temporal LSTM 与 Trust Gates (STLSTM+TS) (Liu 等 人 2016 年 ), Temporal Convolutional Neural Networks (Temporal Conv.) (Kim 和 Reiter 2017 ), Clips CNN + Multi-task 学习 (C-CNN+MTLN) (Ke ). 等 人 2017我们的ST-GCN模型,具有相当简单的架构和没有数据扩充(Kim和Reiter 2017;在这个数据集上,Ke等人(2017)能够超越以前的最先进的方法。
Discussion。实验中的两个数据集有非常不同的性质。在动力学上,输入是深度神经网络检测的2D骨架(Cao等,2017a),而在NTU-RGB+D上,输入来自Kinect深度传感器。在NTU-RGB+D上,摄像机是固定的,而在Kinetics上,视频通常是用手持设备拍摄的,这导致了较大的摄像机运动。所提出的ST-GCN在两个数据集上都能很好地工作,证明了所提出的时空图卷积运算和所得到的ST-GCN模型的有效性。
我们还注意到,在Kinetics数据集上,基于骨架的方法的准确性低于基于视频帧的模型(Kay等,2017)。我们认为这是由于在Kinetics中有许多动作类需要识别与参与者交互的对象和场景。为了验证这一点,我们选择了30个与身体运动密切相关的类,命名为“运动-运动”,并在表4中列出了基于骨骼和框架的模型的平均类精度(Kay et al.2017)。我们可以看到,在这个子集上,性能差距要小得多。我们也探讨使用ST-GCN来捕获两流式动作识别中的动作信息。如图5所示,我们的基于骨架的ST-GCN模型也可以为RGB和光流模型提供补充信息。我们使用RGB和光流模型对标准TSN (Wang et al. 2016)模型进行动力学刮痕的训练。在RGB模型中加入ST-GCN可以增加0.9%,甚至比光流(0.8%)更好。结合RGB、光流和ST-GCN进一步提高性能到71.7%。这些结果清楚地表明,骨骼可以提供补充信息时,有效杠杆(如使用ST-GCN)。




5、Conclusion
本文提出了一种新的基于骨架的动作识别模型——时空图卷积网络(ST-GCN)。该模型在骨架序列上构造了一组时空图卷积。在两个具有挑战性的大型数据集上,所提出的ST-GCN优于先前的基于骨架的模型。此外,ST-GCN还可以捕获动态骨架序列中的运动信息,这与RGB模式是互补的。基于骨架的模型与基于框架的模型相结合,进一步提高了动作识别的性能。ST-GCN模型的灵活性也为未来的工作开辟了许多可能的方向。例如,如何将场景、对象和交互等上下文信息合并到ST-GCN中,这是一个很自然的问题。

本文提出了一种时空图卷积网络(ST-GCN)用于骨架动作识别,解决了传统方法中依赖手工设计部件的局限性。ST-GCN通过学习数据的空间与时间模式,提升了表达能力和通用性。在Kinetics和NTU-RGBD数据集上,ST-GCN取得了优于现有方法的识别性能。模型通过图卷积捕捉关节空间配置和时间动态,实现了信息的时空集成,无需手工编写部件分配规则,简化了模型设计并增强了泛化能力。
2514

被折叠的 条评论
为什么被折叠?



