使用GCN进行skeleton-based action recognition

Contribution
提出了两个设计:
- a disentangled multi-scale aggregation scheme
- a unified spatial-temporal graph convolutional module (G3D)
分别解决了两个问题:
- unbiased weight problem: edge weights will be biased towards closer nodes against further nodes,对于距离较远的两个节点,他们之间的feature share的效果比较轻微,由于距离太远,weight很难传过去。学习long-range relationship比较困难。例如:scale = 7,真正到距离为7的节点的几率是很小的 (这里没有完全理解)。(原始的multi-scale GCN见paper Actional-Structural Graph Convolutional Networks for Skeleton-based Action Recognition )
- factorised spatial-temporal relationship learning: A typical approach is to extract spatial relationships at each time step and then model temporal dynamics. 这样,在spacetime的三维空间里不存在直接的信息流,只能是先space,再time这样间接的提取关系。

该论文提出了一种解决骨架动作识别中长距离关系学习难题的方法,包括分离的多尺度聚合方案和统一的空间-时间图卷积模块(G3D)。通过创新的图卷积计算方式,有效处理了节点间距离对权重的影响,并增强了时空关系的学习。
最低0.47元/天 解锁文章
2618





