骨架数据由于能够较好地适应动态环境和复杂背景,在动作识别任务中得到了广泛的应用。在现有的方法中,骨骼数据中的关节和骨骼信息都被证明对动作识别任务有很大的帮助。然而,如何将这两种类型的数据结合在一起,最大限度地利用关节和骨骼之间的关系,仍然是一个有待解决的问题。在这项工作中,我们将骨骼数据表示为基于关节和骨骼之间的运动学依赖i的有向无环图(DAG)设计了一种新型有向图神经网络,用于提取关节、骨骼及其关系信息,并根据提取的特征进行预测。此外,为了更好地拟合动作识别任务,根据训练过程对图的拓扑结构进行自适应,改进明显。利用骨架序列的运动信息与空间信息相结合,进一步提高了双流框架的性能。我们最终的模型在两个大数据集上进行了测试,即NTU-RGBD和Skeleton-Kinetics,并且在这两个数据集上都超过了最先进的性能。
动作识别在视频监控和人机交互中起着至关重要的作用,它已被广泛研究,但尚未得到充分解决。与传统的使用RGB图像或视频进行识别的方法相比,基于骨架的动作识别由于其对身体尺度变化、运动速度、摄像机视点和背景干扰的鲁棒性,越来越受到人们的关注。骨骼数据表示人体为一个人体主要关节的坐标序列,深度传感器(如动力学)或位姿估计算法可以很容易地捕捉到[4,10]。传统的基于骨架的动作识别方法主要集中在设计手工特征来代表骨骼[30,8]。随着深度学习方法的发展,数据驱动方法已成为主流在基于深度学习的方法中,最广泛使用的模型是递归神经网络(RNNs)、卷积神经网络(CNNs)和图卷积网络(GCNs),其中关节坐标分别表示为向量序列、伪图像和图。近年来,骨骼信息作为代表骨骼方向和长度的信息,被证明是基于骨骼的动作识别的一种良好模式[26,18]。这个信息是直观的,因为人类很自然地根据人体骨骼的方向和位置来评估行动,而不是根据关节的位置。此外,已经证明关节和骨骼信息是互补的,结合它们可以进一步提高识别性能。在人体中,关节和骨头是紧密耦合的,每个关节(骨头)的位置实际上是由它们相连的骨头(关节)决定的。例如,肘关节的位置取决于上臂骨的位置,上臂骨的位置同时也决定了前臂骨的位置。现有的基于图形的方法通常将骨骼表示为无向图,用两个独立的网络对骨骼和关节进行建模,不能充分利用关节和骨骼之间的依赖性。为了解决这个问题,我们将骨架表示为一个有向无环图,以关节为顶点,骨为边,其中关节和骨之间的依赖关系可以很容易地通过图的有向边建模。此外,设计了一种新的有向图神经网络(DGNN)来建模所构造的有向图,该有向图神经网络可以传播有向图信息并在每一层更新它们的相关信息。最终提取的特征不仅包含关节和骨骼的信息,还包含关节和骨骼的依赖关系,有利于动作识别。
另一个问题是原始的骨骼是根据人体的结构手工设计的,对于动作识别任务可能不是最优的。例如,双手在拍手、拥抱等动作类中有很强的依赖关系,但在基于人体结构构建的图形中不存在这种联系。我们通过应用自适应图而不是受启发的固定图来解决这个问题[26],即在学习过程中对图的拓扑进行了参数化和优化。由于学习图中没有约束,[26]中描述的方法增加了一个固定的手动设置的图来稳定训练过程,同时在一定程度上失去了灵活性。在这项工作中,我们提出了一种简单而有效的方法,既保证了训练过程的稳定性,又避免了灵活性的丧失,带来了显著的提高。
基于双流的架构是一种广泛应用于rgb动作识别的方法,通过提取视频的光流场来建模帧间的时间依赖性[27,31]。这种方法是有效的,因为有些类强烈地依赖于动作的顺序信息,比如“向左挥手”和“向右挥手”。受此方法的启发,我们从关节和骨骼中提取运动信息,以帮助识别。提出了一种融合空间流和运动流结果的双流框架来进一步提高性能。
最后的模型是在两个大数据集上评估基于骨架的动作识别任务。, NTURGBD和骨骼动力学,并超过了最先进的性能在两者。我们的主要贡献包括:(1)据我们所知,这是第一个将骨骼数据表示为有向无环图来建模关节和骨骼之间的依赖关系的工作。设计了一种新的有向图神经网络来提取这些依赖关系,并用于最终的动作识别任务。(2)采用自适应学习的图结构,在训练过程中与模型参数联合训练和更新,以更好地适应动作识别任务。(3)提取连续帧之间的运动信息,进行时态信息建模。空间和运动信息都被输入一个两流的框架,以完成最终的识别任务。(4)在基于骨架的动作识别的两个大规模数据集上,我们的模型大大超过了目前最先进的性能。
相关工作
2.1。Skeleton-based行动识别
传统的基于骨架的动作识别方法通常使用手工制作的特征来代表人体,这在设计过程中存在挑战,导致性能不理想[30,8]。近年来,深孔法已被证明比传统方法优越。基于深度学习的方法主要有三种框架:基于序列的方法、基于图像的方法和基于图形的方法。
基于序列的方法根据设计的遍历策略将骨架数据表示为关节序列,然后使用基于rn的架构对其建模[25,20,28,37,18,3]。另一个框架涉及到基于图像的方法,将骨架数据表示为伪图像,实现在图像分类领域成功应用的cnn[6, 14, 21, 16]。基于图形的方法不是将骨骼数据表示为序列或伪图像,而是将数据建模为以关节为顶点、以骨骼为边的图形[34,29,26]。与基于序列的方法和基于图像的方法相比,基于图形的方法更直观,因为人体是自然地组织成一个图形,而不是序列或图像。
图网络
图是一种比图像和序列更通用的数据结构,传统的深

本文提出了一种新的有向图神经网络(DGNN)方法,用于骨架数据的动作识别。通过将骨骼数据表示为关节和骨骼依赖的有向无环图,模型能更好地捕捉人体动作的关节和骨骼关系。此外,采用自适应图结构学习,以适应动作识别任务。同时,通过结合空间和运动信息的双流框架,提升了性能。在NTU-RGBD和Skeleton-Kinetics数据集上,该模型超越了当前最先进的成果。
最低0.47元/天 解锁文章
1690

被折叠的 条评论
为什么被折叠?



