【论文阅读】Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition

最新推荐文章于 2025-03-23 18:15:00 发布

Cheungleilei

最新推荐文章于 2025-03-23 18:15:00 发布

阅读量2.6k

点赞数

分类专栏：行为检测学习记录论文阅读计算机视觉文章标签： ST-GCN

本文链接：https://blog.youkuaiyun.com/Cheungleilei/article/details/103137572

版权

计算机视觉同时被 3 个专栏收录

16 篇文章

订阅专栏

论文阅读

10 篇文章

订阅专栏

行为检测学习记录

6 篇文章

订阅专栏

在这里插入图片描述

摘要

动态人类骨架能够为人体行为识别传递大量的信息。传统的对人体骨架建模的方法是依赖于手工涉及或者遍历规则的，导致的结果就是表达力不强且泛化困难。在这里提出一种创新的动态骨架建模方法ST-GCN，能自动从数据中学习空间和时间特征。

引言

人体的行为可以由集中形式被识别：外观、光流和骨架。其中骨架蕴含大量信息，所以本文系统地研究了这种形式，将骨架运用到行为识别方向。
动态的骨架能够自然地由2D或者3D的人类关节点坐标的时间序列表示，由此可以分析人体行为的运动模式。以前的方法是简单地使用不同时间点上的关节坐标形成特征向量，然后应用到空间分析上。这种做法不能找到关节点之间的空间关系，空间关系是理解人体行为的关键所在。新的一些利用关节之间自然连接关系的办法也出现了，这些办法揭示了连接性的重要性。但是，这其中的很多办法是依赖于人工设计或者一些规则去分析空间特征。最后的结果就是，这些方法是为特定的应用场景而设计，不具普适性。
本文的方法能够自动地捕获嵌入在空间构型和动态时序中的特征。这就是深度神经网络的厉害之处。骨架作为骨结构，不是2D或者3D的网格形式存在的，因此用卷积神经网络建模就比较困难。最近出现的图卷积神经网络，将CNNs推广到任意的图结构，已经受到大量的关注，也成功应用到诸如图片分类，文件分类和半监督学习中。这些工作的输入都是固定大小的图结构。用GCNs在大规模数据集的基础上对动态图建模，还没有探索过。
因此，本文针对行为识别设计了一种具有普适性的骨骼序列表示法——通过扩展图神经网络到时空图模型上，这个模型被称为ST-GCN。

图1 骨骼序列的时空图结构。蓝色的点表示身体的关节。包含两种类型的连线，分别叫空间连线（spatial edges） 和 时间连线（temporal edges）。身体关节点之间的连线构成了人体自然的连接，这就是spatial edges。同一关节处的连线连接了连续的帧，这是temporal edges。关节点位置就是ST-GCN的输入。多层时空图卷积在此基础上建立，整合了大量的空间和时间维度上的信息。
ST-GCN分层的特点使得其不需要手工设计和遍历的规则。表达力增强且具有普适性。在GCN的基础上，研究了新的设计图卷积核的方法。

时空图卷积

当做动作的时候，人体的关节在局部运动，这个局部就是“身体部位”。现存的方法证明了在建模中引入身体部位的有效性。作者认为这样的有效性主要是因为身体部位限制了关节轨迹模型在“局部区域”中，而不是在整个骨架中，因此用分层的表示方法来表示骨架序列。在图片目标检测任务中，通常通过卷积神经网络的固有属性来实现层次表示和局部性，而不是通过人工分配的方式。

流程概览

骨架数据能够通过运动捕捉设备或者姿态识别算法从视频中得到。通常这些数据是一系列的帧，每一帧都有很多关节坐标。假设关节坐标都是以2D或者3D坐标形式存在，那么将关节作为图节点，将人体结构中天然的连线和帧与帧间时间的连线作为图的连线，建立一个时空图。因此ST-GCN的输入时关节坐标向量。多层时空图卷积操作将会应用在输入数据上，产生更高级的特征图。之后会通过标准的SoftMax分类器进行分类，得到相应的动作分类，整个模型以端到端的方式进行后向传播训练。

骨架图架构

骨架序列通常以每一帧中的每个关节的2D或者3D的坐标表示。之前的工作使用了卷积，连接所有关节的坐标向量形成每帧的特征向量来做骨架行为识别。在本研究中，利用时空图形成分析的骨架序列表达。在骨架序列上，建立无向时空图G=(V, E)，其中包含N个关节和T帧，可做体内和帧间的连接。
在图中，点V={v_ti|t=1, …, T, i=1, …, N}，包括骨架序列中的所有关节点。作为ST-GCN的输入，在第t帧的i关节点上的特征向量F(v_ti)包含坐标向量，同时也包含预估置信度。建立骨架序列的时空图有两个步骤：第一步，根据人体结构，用线把在同一帧中的所有关节连起来。在连续的帧中，每个关节都将与这个关节连接在一起（也就是时间连线）。第一步的工作不需要人工去分配身体部位，也能使得网络结构能够在具有不同数量的关节或者关节连接的数据集中正常运行。例如，在Kinetics数据集中，使用OpenPose得到的2D姿态预估结果，输入18个关节点，在NTU+RGB+D数据集中，使用3D的跟踪结果作为输入，有25个关节点。ST-GCN可以在以上两种情况下运行且能提供一样的极好的性能表现。下面给出一个例子来说明构建图1所示的时空图。
边集E有两个子集，第一个子集描述了每帧骨架内部的连接，用E_S = {v_tiv_tj|(i,j)∈H}表示，H表示自然的人体关节点集合。第二个子集包含帧间连线，连接了不同时间帧的同一个关节，用E_F ={v_tiv_(t+1)i}来表示。因此E_F中，对于特定关节j的所有连线，将会代表其随着时间的轨迹。

时空卷积神经网络

在进入成熟的ST-GCN研究前，首先看看图CNN模型的一个单独帧。在τ时刻的单独帧中，有N个关节点V_t ,同时有边E_S = {v_tiv_tj|(i,j)∈H}。回想一下2D图片或者特征图上的卷积定义，都可以视为2D网格。卷积操作后输出的特征图也是2D网格。当步长为1，padding适当的时候，输出的特征图会和输入的特征图拥有一样的大小。
给定卷积核大小K×K，输入的特征图f_in 有c个通道。单通道在空间位置x输入的值可以表达为：
在这里插入图片描述
采样方程p:Z² ×Z² →Z² 枚举出了位置x上的邻点。在图片卷积中，可以将p表示为：
p(x,h,w)=x+p’(h,w)
权重方程w:Z² → R^c 得到在c维空间中的权重向量，再利用维度为c的采样输入特征向量计算内积。注意权重方程和输入的位置x不想管。因此卷积核权重对输入图片共享。图片领域标准的卷积能够对p(x)中的矩形网格编码。
通过将上述公式扩展到位于空间图V_t 的输入特征图的情况，来定义图上的卷积运算。即特征图在这里插入图片描述
在每一个节点上有一个向量，扩展的下一步是重新定义采样函数p和权重函数w。