Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition

最新推荐文章于 2022-11-23 14:41:30 发布

原创

最新推荐文章于 2022-11-23 14:41:30 发布 · 1.1k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#ST-GCN #行为识别 #骨架 #图卷积

本文提出了一种时空图卷积网络（ST-GCN）用于骨架动作识别，解决了传统方法中依赖手工设计部件的局限性。ST-GCN通过学习数据的空间与时间模式，提升了表达能力和通用性。在Kinetics和NTU-RGBD数据集上，ST-GCN取得了优于现有方法的识别性能。模型通过图卷积捕捉关节空间配置和时间动态，实现了信息的时空集成，无需手工编写部件分配规则，简化了模型设计并增强了泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Abstract

动态人体骨架为行为识别承载着重要的信息。传统的骨架建模方法通常依赖于手工设计的部件与便利规则，这导致了表达能力的限制与通用性的难题。本文中，我们提出了一种先进的动态骨架模型称为Spatial-Temporal Graph Convolutional Networks（ST-GCN），这种方法通过自适应学习数据的空间与时间模式来解决之前方法的局限性。这种提法不仅带来了更好的表达能力，而且也有更好的通用能力。在Kinetics与NTU-RGBD两大数据集上，与主流方法相比都取得了实质的改进。

1、Introduction

行为识别近些年成为了活跃的研究领域，它在视频理解领域扮演了重要的角色。通常来说，认得行为可以从多种形式进行识别（Simonyan and Zisserman 2014; Tran et al. 2015; Wang, Qiao, and Tang 2015; Wang et al.2016; Zhao et al. 2017），例如外观、深度、光流与人体骨架（Du, Wang, and Wang 2015;Liu et al. 2016）。这些方法中，动态骨架法包含的重要信息与其它方法相比更充足。然而，动态骨架建模的方法与基于外观或者光流的方法相比获得的关注较少。本文中，我们系统的研究了这些方法，目标是研发一种重要且有效的基于动态骨架建模的方法，并且将这种方法应用到行为识别中。

动态骨骼模型可以自然地表示为一系列人类关节位置的时间序列，以二维或三维坐标的形式表示。人类的行为可以通过分析其运动模式来识别。早期的利用骨骼进行动作识别的方法是简单地利用各个时间步长的关节坐标来形成特征向量，并对其进行时间分析（Wang et al. 2012; Fernando et al. 2015）。这些方法的能力有限，因为它们没有明确地利用关节之间的空间关系，而这些关系对于理解人类行为至关重要。最近，尝试利用关节间自然连接的新方法被开发出来（Shahroudy et al. 2016; Du, Wang, and Wang 2015）。这些方法显示出令人鼓舞的改进，这说明了连接性的重要性。然而，大多数现有的方法依赖于手工制作的部件或规则来分析空间模式。因此，为特定应用程序设计的模型很难推广到其他应用程序。

为了超越这些限制，我们需要一种新的方法，可以自动捕获嵌入在关节空间配置及其时间动态的模式。这就是深度神经网络的优势。然而，如前所述，骨架是图的形式，而不是2D或3D网格，这使得使用当前卷积网络等成熟模型变得困难。近年来，图神经网络（Graph Neural networks, GCNs）将卷积神经网络（convolutional Neural networks, CNNs）推广到任意结构的图上，受到越来越多的关注，并成功应用于图像分类(Bruna et al. 2014)、文档分类（Defferrard, Bresson, and Vandergheynst 2016）、半监督学习（Kipf and Welling 2017）等诸多领域。然而，这条线上的许多先前的工作都假设一个固定的图作为输入。GCNs在大型数据集(如人类骨骼序列)上对动态图建模的应用还有待探索。

本文提出将图神经网络扩展到一个时空图模型，即时空图卷积网络(ST-GCN)，设计一个用于动作识别的骨架序列的通用表示。如图1所示，该模型建立在一系列骨架图的顶部，其中每个节点对应于人体的一个关节。有两种类型的边缘，即符合关节自然连接的空间边缘和跨越连续时间步长的连接相同关节的时间边缘。在此基础上构造了多层时空图卷积，实现了信息在时空维度上的集成。

ST-GCN的层次结构特性消除了手工编写部分分配或遍历规则的需求。这不仅导致了更强的表达能力和更高的性能(如我们的实验所示)，而且还使它易于推广到不同的上下文。在通用的GCN公式的基础上，研究了基于图像模型的图卷积核设计新策略。

本工作的主要贡献在于三个方面:1)我们提出了ST-GCN，这是一个通用的基于图的动态骨架建模方法，它是第一个将基于图的神经网络应用于此任务的模型。2)根据骨架建模的具体要求，提出了ST-GCN中卷积核设计的若干原则。3)在两个大规模的基于骨架的动作识别数据集上，与之前使用手工制作的部件或遍历规则的方法相比，该模型取得了更好的性能，并且在手工设计方面的工作量大大减少。ST-GCN的代码和模型已经开源。

2、Related Work

Neural Networks on Graphs。将神经网络推广到具有图结构的数据是深度学习研究的一个新兴课题。所讨论的神经网络结构包括递归神经网络和递归神经网络（Tai,Socher, and Manning 2015; Van Oord, Kalchbrenner, and Kavukcuoglu 2016）和卷积神经网络(CNNs) （Bruna et al. 2014; Henaff, Bruna, and LeCun 2015;Duvenaud et al. 2015; Li et al. 2016; Defferrard, Bresson,and Vandergheynst 2016）。这项工作更多地涉及到CNNs或图卷积网络(GCNs)的泛化。图上构造GCNs的原理一般有两种:1)光谱视角，以光谱分析的形式考虑图卷积的局部性(Henaff, Bruna, and LeCun 2015;Duvenaud et al. 2015;Li et al. 2016;Kipf和Welling 2017);2)空间视角，即在图节点及其相邻节点上直接应用卷积滤波器(Bruna et al. 2014;Niepert, Ahmed和Kutzkov 2016)。本文遵循第二种思路。我们在空间域上构造CNN过滤器，将每个过滤器的应用限制在每个节点的1个邻域节点上。

Skeleton Based Action Recogntion。人体的骨骼和关节轨迹对光照变化和场景变化具有较强的鲁棒性，并且由于高度精确的深度传感器或姿态估计算法而易于获得（Shotton et al. 2011; Cao et al. 2017a）。因此，有许多基于骨架的动作识别方法。这些方法可以分为基于手工特征的方法和深度学习方法。第一种方法设计了几个手工制作的特性来捕捉关节运动的动态。这些可能是关节轨迹的协方差矩阵(Hussein et al.，2013)，关节的相对位置(Wang et al.，2012)，或者是身体部分之间的旋转和平移(Vemulapalli, Arrate, and Chellappa, 2014)。最近深度学习的成功导致了基于深度学习的骨架建模方法的兴起。这些工作已经使用递归神经网络（Shahroudy et al. 2016;Zhu et al. 2016; Liu et al. 2016; Zhang, Liu, and Xiao 2017）和时间序列CNNs（Li et al. 2017; Ke et al. 2017;Kim and Reiter 2017）来学习端到端的动作识别模型。在这些方法中，很多都强调了人体关节建模的重要性。但是这些部分通常是使用领域知识显式分配的。我们的ST-GCN是第一个将图CNNs应用到基于骨架的动作识别任务中的系统。与以前的方法不同的是，它可以通过利用图卷积的局部性和时间动态来隐式地学习局部信息。通过消除对手工部件分配的需要，模型更容易设计，并有效地学习更好的动作表示。

3、Spatial Temporal Graph ConvNet

在进行活动时，人类的关节会以小组的形式移动，这被称为“身体部位”。现有的基于骨骼的动作识别方法已经验证了在建模中引入身体部位的有效性（Shahroudy et al. 2016; Liu et al. 2016; Zhang, Liu, and Xiao 2017）。我们认为，这种改进主要是由于局部区域内关节轨迹的建模与整个骨架相比受到限制，从而形成了骨架序列的层次表示。在图像对象识别等任务中，层次表示和局部化通常是通过卷积神经网络(Krizhevsky, Sutskever, Hinton 2012)的固有特性实现的，而不是手工分配对象部件。这促使我们将CNNs的这个有吸引力的思路引入到基于骨架的动作识别中。这次尝试的结果是ST-GCN模型。

3.1Pipline Overview

基于骨架的数据可以从动作捕捉设备中获取，也可以从视频中获取姿态估计算法。通常数据是一系列的帧，每一帧都有一组关节坐标。给出了二维或三维坐标形式的人体关节序列，构造了以关节为图节点，以人体结构和时间的自然连接性为图边的时空图。因此，ST-GCN的输入是图节点上的联合坐标向量。这可以看作是一种基于图像的CNNs的模拟，其中输入是由驻留在二维图像网格上的像素强度向量形成的。对输入数据进行多层时空图卷积运算，生成更高层次的特征图。然后通过标准的SoftMa

最低0.47元/天解锁文章