【行为识别】ST-GCN

最新推荐文章于 2025-02-16 12:23:15 发布

原创

最新推荐文章于 2025-02-16 12:23:15 发布 · 1.7k 阅读

·

20

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#视频理解 #行为识别 #深度学习 #人工智能 #Python

香港中大-商汤科技联合实验室在2018 AAAI 会议上发表论文“Spatial Temporal Graph Convolutional Networks for Skeleton Based Action Recognition”，提出时空图卷积网络模型ST-GCN，用于解决基于人体骨架关键点的人类动作识别问题。

论文链接：https://arxiv.org/abs/1801.07455

代码链接：https://github.com/yysijie/st-gcn

一.介绍

近年来，人类动作识别已成为活跃的研究领域，因为它在视频理解中起着重要作用。一般而言，人类行为可以从多种形式中识别，例如外观、深度、光流和人体骨架。在这些方式中，动态的人体骨架通常传达重要的信息，这些信息是其他信息的补充。但是，与外观和光流相比，动态骨架的建模受到的关注相对较少。

动态骨架模态可以由人类关节位置的时间序列，以2D或3D坐标的形式自然地表示，然后可以通过分析其动作模式来识别其动作。大多数现有方法都依靠手工制作的身体部位或规则来分析空间模式。结果，为特定应用设计的模型很难推广到其他应用。

港中文团队提出通过将图神经网络扩展到称为时空图卷积网络（ST-GCN）的时空图模型，来设计用于动作识别的骨架序列的通用表示。如下图所示：

以骨架图序列为基础，其中每个节点对应于人体的一个关节。边有2种类型。

空间边：与关节的自然连通性相符的边；

时间边：在连续的时间步长上连接相同关节的边。

借助图结构可以构造多层的空间时间图卷积，允许沿空间和时间维度整合信息。

二.相关工作

应用于图的神经网络

构造GCN通常遵循2个方面：1）频谱视角，以频谱分析的形式考虑了图卷积的局部性；2）空间视角，将卷积滤波器直接应用于图的节点及其邻域。本文采用空间视角。通过将滤波器的作用于每个节点的1-neighbor，在空间域上构造CNN过滤器。

基于骨架的动作识别

人体的骨架和关节轨迹对于光照变化和场景变化具有鲁棒性，并且借助高精度的深度传感器或姿势估计算法，骨架和关节轨迹易于获得。因此，存在多种基于骨架的动作识别方法，这些方法可以分为基于手工特征的方法和深度学习方法。

基于手工特征的方法设计一些手工特征来捕获关节运动的动态信息，手工特征可能是关节轨迹的协方差矩阵，关节的相对位置或身体各部位之间的旋转和平移。基于深度学习的方法使用RNN和Temporal CNN，以端到端的方式学习动作识别模型。

三.ST-GCN

3.1 Pipeline

骨架数据可以从运动捕获设备中获取，也可以从视频中通过姿势估计算法获取。通常，数据是帧序列，每个帧有1组关节坐标集合。给定2D或3D坐标形式的人体关节序列，构建一个时空图以关节为图（Graph）节点，以身体部位结构间的自然连通性和时间作为图的边。

ST-GCN的输入是图节点上的关节坐标矢量。输入数据经过多层时空图卷积操作在图上生成更高级别的特征图。然后，通过的SoftMax分类器分类为相应的动作类别。整个模型通过反向传播，以端到端的方式进行训练。

3.2 Skeleton Graph Construction

利用时空图来形成骨架序列的层次表示。具体地，在具有N个关节的T帧的骨架序列上构造无向时空图 G =（V, E），T帧骨架同时具有体内和帧间连接。

在G中，节点集合 $V=\left \{ v_{ti} | t=1,...,T;i=1,..,N\right \}$ 包括骨架序列中的所有关节。作为ST-GCN的输入，节点上的特征矢量

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。