Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition

最新推荐文章于 2025-03-23 18:15:00 发布

原创最新推荐文章于 2025-03-23 18:15:00 发布 · 1w 阅读

51 ·

CC 4.0 BY-SA版权

documents 专栏收录该内容

8 篇文章

订阅专栏

本文深入解析了一种使用图卷积网络(ST-GCN)处理骨架序列数据的方法。通过三维骨架数据的构建与图卷积的学习过程，实现了高效的行为识别。特别强调了输入数据的维度与卷积核的设计细节。

这篇文章可以说很晦涩了，作者用图卷积学习骨架数据，大概看一遍文章就知道作者建立了3-D Graph，然后用图卷积来学习所建立的图数据特征，然后再识别行为。但是这不是晦涩的地方，毕竟一个图，就看明白了，晦涩的地方是文章中的数据是的维度以及这个维度计算是怎么在图卷积中流动的。不类比传统卷积还好，偏偏现在大多都是拿传统卷积来讲图卷积，然后，会不自觉的用二维欧几里德图形里的传统卷积来考虑图卷积，这就开始蛋疼了。
废话不多说，直接上图：
这里写图片描述
对，输入视频帧，提取骨架序列，然后时空图卷积即ST-GCN用来学习构建的3-D骨架数据，最后分类。是不是很简单，是不是，是不是？性能很有效。为什么，因为，因为作者牛X啊。
下面这部分我把文章快瞅瞎了才理解文章里怎么做的，可能是理解水平不行，但确实对我来说难理解，不信？不信别看博客直接去看原文啊，当你看的头开始炸裂的时候，回来看我的博客，再次看到这就不会骂我了。
首先，输入数据的大小我被传统卷积误导了，深度学习中的经典的二维图像分类，输入图像的大小是N*C*H*W，N是图像数目，C是样本通道数，H是图像的高度，W是图像的宽度，然而，对于骨架序列，文章中就一句话，骨架中的每个结点是二位坐标或者三维坐标位置，对于一帧视频序列，里面的目标如果有18个节点，那么输入数据就是一个18维的数组，每个数组元素是一个元祖（X,Y,C），C是置信度,如果图像里有两个目标，那么数据维度（3，T，18，2），然后文章通篇都在直接提通道数，还时不时的和二维图像分类里做类比，我就一度迷惑这个输入通道是把什么当通道，这根本看不懂啊，是把18个节点当通道，组成18个通道的多位数组？还是把时间T当通道。更让我理解不了的是，坐标里有个C，传统图像里的卷积也用C表示通道。不管那种方式误导你了，那么在接下来的几个星期里，你使劲看吧，你怎么看都看不明白，所有公式和解释你都是大概感觉是这个意思，但就是有个模糊区域你理解不了不了，哈哈哈哈，我的理解能力太差。你巴拉巴拉原文看看是不是这样。
好了，现在直接说理解，考虑每个骨架序列就一个实例目标，作者输入数据维度是N*C*T*V，N是样本数据，C是依旧是通道数，T是每个视频的长度，V每一帧骨架数据里的节点个数（18），好了还是不知道C到底是个什么东西。揭开谜底，C就是坐标，3维的是吧，C就等于3，也就是把每一个节点的位置按照通道进行排列，这也是这篇文章最晦涩，也是要彻底理解数据怎么流通的就必须要知道的东西。那么我们的涂卷积神经网络的权重参数W是个什么大小的呢，偏偏作者这里有提到二维卷积的每个卷积核大小是C*K*K，C是通道数，K是卷积核的宽和高，哈哈哈，然后，图卷积与之相似，妥了，又掉进坑里去了，一直在考虑，这空间咋能是二维的呢，节点就是一个特征啊，哈哈哈，能转出来我服你，反正我理解能力差。说是C*K，思考半天，明白了，对于空间节点，把他当成一个一维的，时间节点当成另一维度，不就是每个卷积核为C*T1*K1么，唉，然后输出就是N*C1*T1*V。哈哈哈，牛逼不，能理解我服你啊。

行了，剩下的，去看文章吧。