主要工作
在动作识别中,虽然时空视频和骨架特征的结合可以提高识别性能,但需要一个单独的模型和平衡的跨模态数据的特征表示。
跨模态学习:提出了一种将时空视频的跨模态数据和骨架聚合成多类令牌的方法,以解决组合跨模态动作数据的问题。
STAR-Transformer:提出了一个Spatio-TemporAl cRoss (STAR)-Transformer的注意机制, 它可以有效地表示两个交叉模态特征作为一个可识别的向量。
动作识别模型的总体架构
跨模态学习
首先提出了一种跨模态学习方法,可以结合视频帧和骨架特征。16个视频帧和相应的骨架序列作为输入,每个帧都被馈送到ResNet MC 18,并从中间层和最后一层提取两个特征图。由于中间层的特征图包含比最后一层更详细的局部特征,因此它与联合热图组合用于联合地