自监督行为识别-时空线索解耦

最新推荐文章于 2025-11-26 15:40:52 发布

原创

最新推荐文章于 2025-11-26 15:40:52 发布 · 1.1k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#python #图形图像

✨✨ 欢迎大家来访Srlua的博文（づ￣3￣）づ╭❤～✨✨

🌟🌟 欢迎各位亲爱的读者，感谢你们抽出宝贵的时间来阅读我的文章。

我是Srlua小谢，在这里我会分享我的知识和经验。🎥

希望在这里，我们能一起探索IT世界的奥妙，提升我们的技能。🔮

记得先点赞👍后阅读哦~ 👏👏

📘📚 所属专栏：人工智能、话题分享

欢迎访问我的主页：Srlua小谢获取更多信息和资源。✨✨🌙🌙

本文所有资源均可在该地址处获取。

2024年人工智能顶会AAAI会议论文复现
SCD-Net: Spatiotemporal Clues Disentanglement Network for
Self-Supervised Skeleton-Based Action Recognition

引言

自监督骨架行为识别是一种利用未标记的骨架数据进行行为识别的方法。传统的行为识别方法通常需要大量标记好的数据进行训练，但标记数据的获取成本高昂。自监督学习通过设计自动生成标签的任务，可以在缺乏标记数据的情况下进行训练。

在自监督骨架行为识别中，骨架数据可以通过传感器或深度摄像头等设备获取。这些数据包含了人体关节的位置和运动信息。自监督学习任务的关键是设计一种能够从未标记的骨架数据中自动生成标签的方法。

在训练过程中，使用未标记的骨架数据进行自监督学习，生成伪标签。然后，将生成的伪标签用于监督骨架行为识别模型的训练。通过这种方式，自监督学习可以在缺乏标记数据的情况下，提供一种有效的方法进行骨架行为识别。

那么目前自监督骨架行为还面临哪些挑战呢？

挑战1. 时空信息的混淆

编码器负责将输入映射到可以进行对比的潜在空间。而之前的大多数方法专注于通过常用的时空建模网络获得统一的信息。他们的设计导致了时间、空间信息的纠缠，无法为随后的对比措施提供明确的指示。

挑战2.数据增强的局限性

此外，现有技术往往局限于规模转换(常见的增强策略，比如裁剪、旋转)，这导致无法充分利用数据增强的潜力。

挑战3. 未考虑方法的可迁移性

优化过程中，大多数方法都专注于在相同的表示水平上构建对比对;
忽略域之间的差距(同一任务下或数据集中)。

1.论文概述

SCD-NET(SCD-Net: Spatio temporal Clues Disentanglement Network forSelf-Supervised Skeleton-Based Action Recognition AAAI2024)引入了一种新的对比学习框架，即时空线索解耦网络(SCD-Net)。
具体来说，将解耦模块与特征提取器相结合，分别从空间和时间域获得明确的线索。对于SCD-Net的训练，构建了一个全局锚点，鼓励锚点与提取的线索相互作用。此外，本文提出了一种具有结构约束的新的掩码策略，以加强上下文关联，利用掩码图像建模到所提出的SCD-Net。
从实验结果来看，在NTU-RGB+D(60&120)和PKUMMD (I&II)数据集进行了广泛的评估，涵盖了各种下游任务，如动作识别、动作检索、迁移学习和半监督学习。实验结果证明了该方法的有效性，显著优于现有的最先进(SOTA)方法。

2.核心创新点

为了解决自监督在面临的三个挑战，该文分别提出三种方法分别应对。首先在时空信息混淆的问题上，作者提出双向接口编码器；数据增强方面，分别在时间、空间上分设置不同的数据增强策略；方法的可迁移性方面设置了跨越对比损失，详细架构可见下文。
SCD-NET整体架构如下所示：骨架数据->数据增强(data augmentation)后，分别送入编码器层(encoder)以及动量编码器层(Momentum encoder).每个编码器都使用了双向解耦编码器，在经过特征抽取器(feature extractor)后，分别对空间解耦(spatial decoupling)、时间解耦(temporal decoupling)操作,获取不同维度的特征。动量编码器得到的输出作为键向量，正常编码器得到的输出作为查询向量，最后将键向量、查询向量进行对比学习。

2.1 双向解耦编码器

一般来说，从骨架序列中提取的特征被描述为描述动作的复杂时空关联。然而，本文认为这种范式并不适用于对比学习。由于信息的纠缠性很大，很难为后续的比较提供明确的指导。在SCD-Net中，本文提倡一种双路解耦编码器，从复杂的序列信息中分别提取出时间、空间信息以获得更好的判别性表示。
双向解耦编码器构造如下图：分为建模(projection)和细化(refinement)阶段,空间部分对CT维度进行合并，保留V(代表骨骼关节