2021-11-12 Spatial Temporal Transformer Network for Skeleton-based Action Recognition

本文提出了一种新颖的两流Transformer模型,用于骨架数据的人体行为识别。通过空间自注意力模块(SSA)理解和捕捉不同身体部位之间的帧内交互,而时间自注意力模块(TSA)则建模关节随时间的动态相关性。实验在NTU RGB+D 60和NTU RGB+D 120数据集上超越了当前最佳模型,证明了该方法的有效性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Spatial Temporal Transformer Network for Skeleton-based Action Recognition

Author and Department
Chiara et. al. 米兰理工大学,意大利; 发表在上ICPR,2020.

论文有代码,但是复现不正确,之后跟踪继续。

目 录

Abstract

分为三个部分:1.background 2.motivation 3.method 4. conclusion

  • Background: Skeleton data has been demonstrated to be robust to illumination changes(光线变化) etc. Nevertheless, an effective encoding of the latent information underlying the 3D skeleton is still an open problem(虽然骨架数据对于复杂环境鲁棒性较强,但是对于3D数据潜在信息的有效编码仍然是个问题)

  • Motivation:I think rubbing Transformer’s hotness. In addition, The existing methods ignore the correlation between joint pairs.

  • Method:Spatial-Temporal Transformer network(ST-TR)

    • Spatial Self-Attention module (SSA): Understand intra-frame interactions between different body parts;

    • Temporal Self-Attention module (TSA):model inter-frame correlations.

  • Conclusion:A two-stream network which outperforms state-of-the-art models on both NTU-RGB+D 60 and NTU-RGB+D 120.

Summary

写完笔记之后最后填,概述文章的内容,以后查阅笔记的时候先看这一段。注:写文章summary切记需要通过自己的思考,用自己的语言描述。忌讳直接Ctrl + c原文。

Research Objective(s)/Motivation

  作者目的是通过Spatial Self-Attention module (SSA) 和Temporal Self-Attention module (TSA) 提取自适应低层特征,建模人类行为中的交互。

Contribution

  • Author propose a novel two-stream Transformer-based model (both the Termporal and spatial dimensions)

  • Spatial Self-Attention (SSA) & Temporal SelfAttention (TSA)

    • SSA module dynamically build links between skeleton joints, 该模块获取人体各部分之间的关系,与动作有关,而非完全遵守自然人体关节结构。

    • TSA study the dynamics of joints along time.

Background / Problem Statement(Introduction)

Problem Statement

  1. The topology of the graph representing the human body is fixed for all layers and actions, preventing the extraction of rich representations(图表示人体的拓扑结构都是固定的,不能够提取丰富的表达)
  2. 时空卷积都是基于2D卷积的,所以都受限于局部邻居的特征影响;
  3. correlations between body joints not linked in the human skeleton(人体的关节点未连接的部分同样有关联性)。

Method(s)

Spatial Self-Attention (SSA)

  如图1(a)所示, first calculate q i t ∈ R d q q_i^t\in \mathcal{R}^{dq} qitRdq, k i t ∈ R d q k_i^t\in \mathcal{R}^{dq} kitRdq and v i t ∈ R d q v_i^t\in \mathcal{R}^{dq} vitRdq;Then, 计算a query-key dot product 获取权重 α i , j t ∈ m a t g h \alpha_{i,j}^t\in matgh αi,jtmatgh(权重代表两个节点之间的关联性强度)。
a weighted sum is computed to obtain a new embedding for node i t i^t it( ∑ \sum 的目的是为了获取节点新的嵌入)
a i . j t = q i t ⋅ k j t T , ∀ t ∈ T , z i t = ∑ j s o f t m a x j ( a i . j t d k ) v j t (1) a_{i.j}^t=\mathbf{q_i^t}\cdot \mathbf{k_j^t}^T,\forall{t}\in T, \mathbf{z}_i^t=\sum_jsoftmax_j(\frac{a_{i.j}^t}{\sqrt{d_k}})\mathbf{v}_j^t\tag{1} ai.jt=qitkjtT,tT,zit=jsoftmaxj(dk ai.jt)vjt(1)

  Multi-head 自注意力经过重复H次嵌入提取过程,每次采用不同集合的学习参数。,从而获得节点嵌入 z i 1 t , … , z i H t z_{i_1}^t,…,z_{i_H}^t zi1t,,ziHt,所有参考 i t i^t it,如 c o n c a t ( z i 1 t , … , z i H t ) ⋅ W O concat(z_{i_1}^t,…,z_{i_H}^t)\cdot W_O concat(zi1t,,ziHt)WO,并且构成SSA的输出特征。

  总结,这部分就是为了获取节点与其他节点在空间中的特征聚合

  因此,如图1a所示,节点的关系( a i . j t a_{i.j}^t ai.jt score)动态的预测;所有动作的关系结构并不是固定的,都是随着样本自适应改变。SSA操作和全连接的图卷积相似,但是核心values( a i . j t a_{i.j}^t ai.jt score)是基于骨架动作动态预测的。

Temporal Self-Attention (TSA)

a i . j v = q i v ⋅ k j v , ∀ v ∈ V , z i v = ∑ j s o f t m a x j ( a i . j v d k ) v j v (2) a_{i.j}^v=\mathbf{q_i^v}\cdot \mathbf{k_j^v},\forall{v}\in V, \mathbf{z}_i^v=\sum_jsoftmax_j(\frac{a_{i.j}^v}{\sqrt{d_k}})\mathbf{v}_j^v\tag{2} ai.jv=qivkjv,vV,ziv=jsoftmaxj(dk ai.jv)vjv(2)
i v , j v i^v,j^v iv,jv分别表示节点v在时刻i,j的情况。其他和SSA一样。

Two-Stream Spatial Temporal Transformer Network

  既然有了SSA和TSA,那么下一步就是为了合并。

作者分别用SSA和TSA代替ST-GCN中的GCN和TCN

Spatial Transformer Stream (S-TR)
S − T R ( x ) = C o n v 2 D ( 1 × K t ) ( S S A ( x ) ) \mathbf{S-TR}(x)=Conv_{2D(1\times K_t)}(\mathbf{SSA}(x)) STR(x)=Conv2D(1×Kt)(SSA(x)). Following the original Transformer structure,Batch Normalization layer and skip connections are used。

Temporal Transformer Stream (T-TR)

T − T R ( x ) = T S A ( G C N ( x ) ) \mathbf{T-TR}(x)=\mathbf{TSA}(GCN(x)) TTR(x)=TSA(GCN(x)).

Experiments

++Datasets++:NTU RGB+D 60 and NTU RGB+D 120.

Ablation Study

STR stream achieves slightly better performance(+0.4%) than the T-TR stream. 原因:S-TR的SSA只有25个关节点,而时间维度相关需要大量的帧。并且在参数方面也是下降了的

在这里插入图片描述

其中“playing with phone”,“typing”, and “cross hands” on S-TR 收益最大,上时间关联或者两个人的如:“hugging”, “point finger”, “pat on back”, on T-TR收益最大。

References(optional)

[1] Cho, S., Maqbool, M., Liu, F., Foroosh, H.: Self-attention network for skeletonbased human action recognition. In: The IEEE Winter Conference on Applications of Computer Vision. pp. 635–644 (2020)
[2]Zehui, L., Liu, P., Huang, L., Fu, J., Chen, J., Qiu, X., Huang, X.: Dropattention: A regularization method for fully-connected self-attention networks. arXiv preprint arXiv:1907.11065 (2019)

下一步任务,代码解析,因为代码复现目前有问题,还在进一步调整

### 舆情监测系统的构建 #### 使用神经网络实现舆情监测系统的方法 为了有效实施舆情监测,可以采用图嵌入特征来增强数据表示,并结合多种类型的神经网络模型进行预测。对于舆情预测模型的建立,可以选择传统机器学习算法或更先进的深度学习技术[^1]。 #### 构建方法 在设计具体的架构时,考虑到社交网络的时间动态特性以及节点间关系的重要性,《Inductive Representation Learning on Temporal Graphs》提供了有关时间图上的归纳表征学习的研究成果;而《Spatial-Temporal Graph Neural Networks for Skeleton-Based Action Recognition》则探讨了时空图神经网络用于动作识别的技术细节。这些研究有助于理解如何处理具有时间和空间维度的数据集,在此基础上开发适用于舆情传播模式分析的有效工具[^2]。 #### 实现方案 针对实际应用需求,可考虑如下几个方面: - **数据预处理**:收集来自社交媒体平台的信息流作为输入源,经过清洗过滤后形成结构化的文本集合。 - **特征工程**:运用自然语言处理手段解析每条消息的内容属性,比如情绪倾向度、主题类别等标签信息。同时引入外部知识库辅助挖掘潜在关联因素。 - **模型训练**:选取合适的损失函数指导优化过程,确保最终得到能够准确反映公众意见变化趋势的概率分布估计值。在此基础上还可以加入正则项防止过拟合现象发生。 ```python import torch.nn as nn class SentimentAnalysisModel(nn.Module): def __init__(self, vocab_size, embedding_dim=300, hidden_dim=128, output_dim=1): super(SentimentAnalysisModel, self).__init__() self.embedding = nn.Embedding(vocab_size, embedding_dim) self.lstm = nn.LSTM(embedding_dim, hidden_dim, batch_first=True) self.fc = nn.Linear(hidden_dim, output_dim) def forward(self, text): embedded = self.embedding(text) # (batch_size, seq_len, embed_dim) lstm_out, _ = self.lstm(embedded) # (batch_size, seq_len, hidden_dim) out = self.fc(lstm_out[:, -1, :]) # 取最后一个时刻的状态输出 return out.squeeze() ``` 此代码片段展示了一个简单的情感分析模型框架,它采用了LSTM单元来进行序列到数值映射的任务转换,从而帮助评估特定时间段内的整体舆论氛围走向[^4]。 #### 算法选择 当涉及到复杂的非线性映射任务时,推荐优先尝试卷积神经网络(CNN),尤其是那些专为处理变长文本设计的版本,如TextCNN。此外,循环神经网络(RNN)及其改进型GRU/LSTM也非常适合用来捕捉长期依赖性的特点。如果希望进一步提升性能,则不妨探索Transformer系列的大规模预训练模型,它们已经在多个NLP基准测试中证明了自己的优越之处。
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值