NBNN 基于判别式的 3D 动作与手势识别方法解析
1. 研究背景与相关工作
在动作识别领域,待分析的数据是完全观察到的分段视频,每个视频仅包含一个动作实例,目标是将分段视频作为输入并输出相应的类别标签。目前,根据动作序列的数据类型,现有方法大致可分为两类:基于 RGB 的方法和基于骨架的方法。前者以 RGB 动作序列为输入,后者以 3D 姿态序列为输入,由于数据结构不同,处理方法也有很大差异。
随着深度学习技术的发展,出现了各种基于深度学习的动作识别模型:
- CNN 相关模型 :
- 直接利用 CNN 进行帧级特征提取,然后融合各帧的特征或分类得分进行动作分类。
- 如 TSN、TSM 采用 2D CNN 结合简单时间融合策略,TDRL 进一步增强了人类运动的时间动态。
- 流行的双流模型使用两个 CNN 分别提取动作序列的外观和运动特征。
- 还有将 RNN 与 CNN 结合,把提取的 CNN 特征输入 RNN 进行时间建模,但 RNN 模型复杂度高,容易过拟合。
- 3D CNN 扩展了 2D CNN 的卷积算子,充分利用动作序列的时空信息,但需要大量训练样本。
- 基于骨架的动作识别方法 :近年来,基于骨架的动作识别问题受到广泛关注,许多基于学习的方法,特别是深度学习方法被提出。例如 HBRNN 将 3D 姿态的骨骼关节分为五个部分,设计分层循环神经网络来建模不同身体部位之间的关系;Shahroudy 等人设计了部分感知的 LSTM 来构建身体部位之间的关系;Liu 等人将 LSTM 模型扩展到时空领域分析骨架;Song 等人提出基于 LSTM
超级会员免费看
订阅专栏 解锁全文
5657

被折叠的 条评论
为什么被折叠?



