Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition的阅读笔记

针对ST-GCN存在的问题,提出2S-AGCN模型,通过双流方法改进动作识别效果。该模型引入可学习的拓扑结构,增强网络灵活性,并通过可视化验证高层级信息的有效性。

主要工作:提出使用双流方法的**2S-AGCN **模型,改进了ST-GCN

主要内容

文章首先提出ST-GCN的几个问题

  1. 在动作识别中,骨头的方向和长度是很有用的特征,但ST-GCN的模型没有应用这方面的信息。
  2. ST-GCN更多是应用预先设定好的、自然状态下的人的骨架结构,对于某些特定场景下的识别并不适用。
  3. GCN网络不同的层应该是包含着不同级别的信息的,但ST-GCN的每一层的图的拓扑结构是固定的,缺乏灵活性。

对于这三个问题,作者提出2S-AGCN的模型

  1. 为了提取骨骼的信息,将靠近重心的节点作为源节点,另一端作为目标节点,用源节点指向目标节点的向量来表示骨骼。

除了中心节点,骨骼与节点应该是一一对应的,对于中心节点,作者加入了一个值为0的骨骼与其对应,从而能将这两类数据分别送到对应的模型中,也就是J-stream和B-stream。两路数据经模型输出后,将Softmax得到的结果相加,得到最终的分类结果。

  1. 将原来ST-GCN中的归一化邻接矩阵A k _{\mathrm{k}} k和参数矩阵M K _{\mathrm{K}} K替换成A k _{\mathrm{k}} k、B k _{\mathrm{k}} k和C k _{\mathrm{k}} k相加。(将相乘换成相加的意义在于:如果邻接矩阵中的值一开始是0,那么做乘法就不能在点之间产生新的连接

A k _{\mathrm{k}} k表示原来的邻接矩阵;

B k _{\mathrm{k}} k也是一个NxN的邻接矩阵,但B k _{\mathrm{k}} k的参数是可学习的,用来表示两个节点之间是否有连接以及连接的强度

C k _{\mathrm{k}} k是利用一个normalized embedded Gaussian(等价于softmax层)来构建一基于样本的图,用来决定两个点之间是否能产生连接以及这种连接有多强,对于输入的特征图大小为,首先用两个embedding方程(1x1的卷积)将其embed成,并将其resize成和,然后将生成的两个矩阵相乘得到N×N的相似矩阵。既:

网络架构

在这里插入图片描述

该图表示AGCN的一个模块, AGCN在时间上的卷积与ST-GCN一致。图中的Convs表示空间上的卷积、Convt表示时间上的卷积。

在这里插入图片描述

整个AGCN包含9个模块,每个模块的输入输出通道有所不同,GAP为global average pooling 用来代替全连接层,可以减少参数量。

实验

1、为了与ST-GCN直接对比,本文采用了一样的数据集Kinetics和NTU-RGB+D。

2、采用了消融实验,证明三种图A、B、C对正确率的提升均有帮助以及双流的模型优于单流的模型。

3、对不同层的骨架图结构做了可视化,发现更高层的图中包含着更高级的信息,证明了不同的层需要不同的拓扑结构的图。

4、在两个数据集上都达到了最佳水平。

### Skeleton-Based Action Recognition Using Adaptive Cross-Form Learning In the realm of skeleton-based action recognition, adaptive cross-form learning represents a sophisticated approach that integrates multiple modalities to enhance performance. This method leverages both spatial and temporal information from skeletal data while adapting dynamically across different forms or representations. The core concept involves constructing an end-to-end trainable framework where features extracted from joint coordinates are transformed into various intermediate representations such as graphs or sequences[^1]. These diverse forms capture distinct aspects of human motion patterns effectively: - **Graph Representation**: Models interactions between joints by treating them as nodes connected via edges representing bones. - **Sequence Modeling**: Treats each frame's pose estimation results as elements within time-series data suitable for recurrent neural networks (RNN). Adaptive mechanisms allow seamless switching among these forms based on their suitability at different stages during training/inference processes. Specifically designed modules learn when and how much weight should be assigned to specific transformations ensuring optimal utilization of available cues without overfitting any single modality. For implementation purposes, one might consider employing Graph Convolutional Networks (GCNs) alongside Long Short-Term Memory units (LSTMs). GCNs excel in capturing structural dependencies present within graph structures derived from skeletons; meanwhile LSTMs handle sequential modeling tasks efficiently handling long-range dependencies found along video frames' timelines. ```python import torch.nn as nn class AdaptiveCrossFormModule(nn.Module): def __init__(self): super(AdaptiveCrossFormModule, self).__init__() # Define components responsible for processing individual form types here def forward(self, input_data): # Implement logic determining which transformation path(s) will process 'input_data' pass def train_model(model, dataset_loader): criterion = nn.CrossEntropyLoss() optimizer = ... # Initialize appropriate optimization algorithm for epoch in range(num_epochs): running_loss = 0.0 for inputs, labels in dataset_loader: outputs = model(inputs) loss = criterion(outputs, labels) optimizer.zero_grad() loss.backward() optimizer.step() running_loss += loss.item() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值