Centrality Graph Convolutional Networks for Skeleton-based Action Recognition
摘要
骨架图的拓扑结构在人体动作识别中十分重要。将拓扑结构和图卷积相结合取得了显著的性能,在已存在方法中,对骨架数据的拓扑结构进行建模仅仅考虑骨骼和关节之间的连接并直接使用其物理信息。但是以前的方法存在缺陷,对人体每个动作的关键关节、骨骼和身体部位的研究依然存在未知问题。本文提出了一个中心性图卷积网络用于发现那些被忽略的拓扑信息,并区分关键关节、骨骼和身体部位。一个新的中心性图卷积网络首次提出,主要强调关键关节和骨骼的作用,从而带来了明确的改进。同时,研究并结合了骨架序列的拓扑信息,进一步提高四通道框架的性能,并在训练时采用自适应的方法实现重构图。本文在两个大型数据集中进行验证,并与其他方法进行比较。
一、介绍
前面主要介绍了一些动作识别的方法,例如RNN、CNN、GCN等,还有最早提出的使用图卷积进行动作识别的方法STGCN。而本文提出的方法,能够自动检测人类关键关节和骨骼,并强调两者之间的关系,两者与每个动作都有很大的距离。本文提出的方法可将突出的特征编码到人体骨骼的拓扑结构及其动态特性中,可强烈阐述GCN的强度,即具有较高的聚类性能。骨架是结构图,而不是2D或3D网格,大多数先前的方法构造一个结构图作为输入信号。同时,为完成一个动作,每个人需要身体的各个部位进行配合。这个现象表明,人体动作是基于不同身体部位之间的关系,还有一些身体部位起着至关重要的作用。
本文系统的学习了人体动作,提出一个新的图卷积当打来建模识别骨架动作,称为中心性图卷积网络(CGCN)。在图论中,中心性被定义为在一个图中识别很多重要的结点、边和子图。考虑到骨骼数据,本文方法考虑了不同动作的重要关节、骨骼和内源性身体部位的特征。然后CGCN将提供一个排名,确定最重要的关节、骨骼和身体部位。
CGCN通过突出关键关节、骨骼和身体部位,为基于骨架动作识别提供了新的重要的简介,如图1。这个图模型建立在一系列骨架图上,其中每个节点反映了人体的一个关节。这个基本结构加入了中心性特征,向关节中心性、骨骼中心性和子图中心性,称为中心性模块。然后,提取的特征编码到时空模块中进行进一步训练。该CGCN可以对物理连接和不连接的关系之间进行建模,能够有效的获取低阶和高阶骨架信息。中心性模块对近度、特征向量和三重子图计算,从骨架数据中获取特征拓扑特征。这个模块也可以反映在注意力机制中的内源依赖性来增强聚类性能。
本文基于图论的启示,基于图的固有结构和人的行为,研究设计了中心性图卷积网络的策略。本文的主要创新点为四个方面。(1)CGCN是首个强调中心性结构的方法,例如关节、骨骼和子图中心性。其设计是为了揭示人类骨骼中物理连接和不连接部分之间被忽略的信息。(2)CGCN在设计中心性模块是遵循了几种图机制,一满足人体活动的特定需求。(3)提取连续帧间的运动信息为时间信息建模。同时空间和运动信息被输入到一个四通道框架中进行动作识别任务。(4)在两个大型数据集中对本文方法和其他方法进行验证。最终发现这三种中心性结构是隐藏在骨架拓扑结构中的基本机制和因素,为人体动作识别带来了显著的改进。
二、相关工作
本章主要对骨架动作识别和图卷积网络的基本知识进行介绍。
三、方法
本节,主要阐述基于骨架数据的人体动作中心性图卷积,首先介绍如何从骨架数据建立空间图的拓扑结构。
1、空间图结构
图是骨骼结构的图解表示,包括节点和边,可定义为 G = ( N , E ) \ G=(N,E) G=(N,E),N,E分别为结点和边的数量,A是N*N的邻接矩阵。设 x ∈ R N \ x \in R ^N x∈RN是图中每个节点的特征向量,通过傅里叶转换,定义光谱滤波器为 g ( θ ) = d i s g ( θ ) \ g(\theta)=disg(\theta) g(θ)=disg(θ), θ ∈ R N \ \theta \in R ^N θ∈RN是一个参数向量,所以图上的谱卷积表示为:
其中z是每个节点提取的特征向量,U是拉普拉斯矩阵的特征向量的正交矩阵, L = U A U T \ L= UAU ^T L=UAUT。通过拉普拉斯变换,可将 g ( θ ) \ g(\theta) g(θ)看作是L的特征值的函数。 U A U T \ UAU ^T UAUT的时间复杂度是 O ( N 2 ) \ O(N ^2) O(N2),为减少图的时间复杂度, g ( θ ) ( ∧ ) \ g _{(\theta)}(\wedge) g(θ)(∧)可用切比雪夫多项式 T m ( x ) \ T _m(x) Tm(x)的截断展开式到M阶。
其中
θ ′ ∈ R M \ \theta ' \in R ^M θ