Navigating Open Set Scenarios for Skeleton-based Action Recognition【AAAI 2024】开放数据集骨架动作识别

DOI: https://doi.org/10.1609/aaai.v38i5.28247
摘要
在现实世界的场景中,人类的行为通常不在训练数据的分布范围内,这使得模型识别已知行为并拒绝未知行为变得至关重要。然而,在这种开放集条件下给使用纯骨架数据带来了挑战,由于缺乏视觉背景线索和独特的稀疏结构的身体姿势序列。在本文中,我们解决了未开发的OpenSet基于信标的动作识别(OS-SAR)任务,并在三个基于信标的数据集上正式确定了基准。我们评估了七个已建立的开放集方法在我们的任务上的性能,并确定了它们在处理骨架信息时的局限性和关键泛化问题。为了解决这些挑战,我们提出了一个基于距离的跨模态集成方法,利用骨骼关节,骨骼和速度的跨模态对齐,以实现上级开集识别性能。我们将其关键思想称为CrossMax -一种利用新的跨模态均值最大差异抑制机制在训练期间对齐潜在空间的方法,以及在测试期间使用基于跨模态距离的logits细化方法。CrossMax优于现有方法,并在所有数据集和主干上持续产生最先进的结果。基准测试、代码和模型将在https://github.com/KPeng9510/OS-SAR上发布。
OS-SAR
图1(a):开放集骨架动作识别设置
这部分展示了开放集骨架动作识别(Open Set Skeleton-based Action Recognition, OS-SAR)的基本概念和设置。在这种设置中,模型需要识别训练时已知的动作类别,并对未见过的、新的或异常的动作类别做出识别或拒绝的决策。这种场景模拟了现实世界中的条件,即模型可能会遇到训练时未涵盖的新动作。
图1(b):与其他方法的性能比较
这部分展示了该研究提出的方法(被称为“Ours”)与其他先前方法的性能比较。图中可能包含了不同任务(T1-T12)的性能结果,这些任务基于不同的骨干网络(backbones)和数据集划分(splits),并使用O-AUROC(开放集下的受试者工作特征曲线下面积)和O-AUPR(开放集下的精确率-召回率曲线下面积)两个指标进行评估。
T1-T4任务:这些任务基于CTR-GCN(Channel-wise Topology Refinement Graph Convolutional Network)骨干网络,并使用NTU60数据集的交叉受试者(Cross-Subject)和交叉视角(Cross-View)划分进行评估。
T5-T8任务:这些任务基于HD-GCN(Hierarchically Decomposed Graph Convolutional Network)骨干网络。
T9-T12任务:这些任务基于Hyperformer骨干网络。
图中可能包含了一个或多个条形图或折线图,显示了不同方法在上述任务中的性能。根据描述,“Ours”方法在所有任务中都达到了最先进的性能,即在O-AUROC和O-AUPR指标上都优于其他比较的方法。这表明该研究提出的方法在开放集骨架动作识别任务中具有较好的泛化能力和对未知动作的识别能力。
CrossMax
训练阶段(Training Phase):
在训练期间,CrossMax使用 Cross-modality Mean Maximum Discrepancy (Cross-MMD跨通道平均最大差异) 机制来更好地对齐不同模态(关节、骨骼、速度)之间的潜在空间。Cross-MMD是一种统计距离度量,用于量化两个概率分布之间的差异。在这里,它被用来确保来自不同模态的特征表示在分布上是一致的,从而增强模型对不同动作的识别能力。
def guassian_kernel(self, source, target,