Behavioral Recognition of Skeletal Data Based on Targeted Dual Fusion Strategy
代码链接 https://github.com/sunbeam-kkt/FRF-GCN-master
可借鉴的地方
-
多尺度深度点卷积替代TCN,减少参数量。本质就是深度可分离卷积
-
不同的流使用不同的邻接矩阵
-
这篇文章的参考文献不错
摘要
在骨骼数据行为识别中采用多流融合策略可以从不同信息流中提取互补特征,提高识别精度,但存在模型复杂度高、参数多的问题。此外,使用固定邻接矩阵的现有多流方法使模型在不同动作之间的识别过程均匀化,从而降低了多流模型的实际升力。最后,注意机制通常应用于多维特征,包括空间、时间和通道维度。但他们的注意力得分通常以一种串联的方式融合在一起,导致忽视了复杂动作中关节之间的相互关系。为了解决这些问题,提出了一种基于骨架数据的轻量级模型——前后双融合图卷积网络(FRF-GCN)。目标邻接矩阵也被设计为不同的前融合流,允许模型专注于不同量级的行动。同时,提出了空间-时间-通道平行注意(STC - P)机制,该机制对注意力进行并行处理,更重视有用信息,进一步提高了模型的性能。在NTU RGB+D、NTU RGB+D 120和Kinetics-Skeleton 400数据集上,与目前最先进的方法相比,FRF-GCN具有显著的竞争力。我们的代码可在:https://github.com/sunbeam-kkt/FRF-GCN-master。
创新点
-
并行注意力(之前是串行)
-
邻接矩阵的前融合
介绍
人类行为识别(Humanaction recognition, HAR)旨在通过一系列训练良好的识别模型来确定一个人当前的行为类别,具有广泛的应用,如人机交互(Liu and Wang 2020)、视频监控(Xin et al. 2023)、自动驾驶(Saleh et al. 2022)等。特别是在ST-GCN引入基于骨架的HAR之后(Yan, Xiong, and Lin 2018),基于GCN的基于骨架的生物行为识别算法迅速出现。目前基于GCN的行为识别方法主要集中在3维度。
首先是GCN中的邻接矩阵如何更好地学习节点之间的关系,增强模型的学习能力。ST-GCN采用人体关节之间的自然连接作为需要学习的拓扑关系,但无法建立新的生成关系作为非自然连接。2S-AGCN (Shi et al. 2019b)提出了一种自适应邻接矩阵来解决这个问题,以便学习更多的信息。此外,MS-AAGCN (Shi et al. 2020)在邻接矩阵中添加了可学习系数,使其更加灵活。也有人认为,关节之间的更多关系并不总是有助于动作学习,例如,STSF-GCN (Fang et al. 2022)在以关节作为数据输入的gcn模型上使用更少的关系获得了相对较好的性能。(邻接矩阵)
二是采用不同的注意机制来更好地捕捉时空和通道注意得分。许多研究都探讨了注意机制对行为判断的影响,这从生物学的角度来看是非常合理的。所有的注意机制大致分为三类:时间(Liu et al. 2020)、空间(Song et al. 2020)和通道(Chen et al. 2021c)。许多学者已经解决了其中的一个或两个问题,但更先进的模型包含了所有三个问题,例如DC-GCN (Zhou et al. 2023), AM-GCN (Sun et al. 2022)。(注意力)
最后是如何更好地融合多流信息。不同类型的数据通常包含不同的特征信息,多信息流的融合通常比使用单个信息流获得更好的结果。目前,大多数基于骨架数据的行为识别模型采用融合多个信息流的架构(Hu et al. 2022;秦等,2022;吴,张,邹,2023;Zhang et al. 2023)。所采用的数据融合方案大致可分为两类:1)数据后融合(Chen et al. 2021d;刘等。2022a;Xiong et al. 2022),其中每个信息流由同一模型处理以获得行为类别分数。然后通过加权融合将这些分数组合在一起,产生最终的行为分类结果。2)数据的前端融合(Song et al. 2020, 2022),输入数据在模型处理之前进行融合,然后进行特征提取。我们在FRF-GCN中对这两种方案进行了中和&