基于深度学习的3D骨架动作识别

本文介绍了3D骨架动作识别技术,主要通过LSTM和CNN进行特征提取和记忆。讨论了基于LSTM的时间序列理解和CNN的图像特征捕捉,并概述了两者融合的策略。研究中提及的最高精度数据集为NTU-RGBD和PKU-MMD。尽管开源资源有限,但文中提到了一些关键的论文和工作,如View Adaptive Recurrent Neural Networks和Attention LSTM Networks,以及利用深度强化学习和新骨架序列表示的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

关于2D视频动作识别,请移步这两篇博客1,博客2

3D骨架动作识别,现在主要有两种方法,一是用LSTM进行时序上的记忆,二是将骨架坐标转换成特殊的图片,用卷积网络进行特征提取以及记忆,三是将LSTM和CNN网络的结果进行融合
目前使用的最大数据集是NTU-RGBD,后来又出现了一个PKU-MMD,但这个数据集是一段视频包含多段动作,主要是用来做detection的。
这个领域的开源代码非常少,微软有几篇不错的文章,但都不开源,初学者表示很是头疼。以下每个分类按时间发布先后进行整理。也有可能有没看过的文章,本文大概介绍一些比较经典的用来做baseline的文章。
本问所讲的所有paper,输入信息都只有3d骨架坐标。

基于lstm的3d骨架动作识别

因为骨架信息是3D坐标,两帧之间的变化非常明显,用lstm效果非常显著。基于深度学习的方法最开始也是从RNN开始入手。然后在肢体各个部分的特征融合方面下功夫。
View Adaptive Recurrent Neural Networks for High Performance Human Action Recognition from Skeleton Data 2017/4

评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值