摘要:在三维人体动作识别中,如何有效地从骨骼序列中提取时空信息仍然是一个挑战。虽然最近的动作识别方法是基于递归神经网络的,表现出了突出的性能,但这些方法的缺点之一是倾向于过分强调时间信息。由于三维卷积神经网络(3D CNN)是一种通过获取三维信号之间的相关性,同时从空间和时间维度学习特征的强大工具,本文提出了据我们所知,这是3D CNN在基于骨架的动作识别中的第一次应用。我们的方法包括三个阶段。首先将骨骼关节映射到三维坐标空间中,然后分别对其进行时空信息编码。其次,分别采用3D CNN模型,从两个流中提取深层特征。第三,为了增强深度特征捕捉全球关系的能力,我们将每个流扩展为多时间版本。广泛的实验SmartHome数据集和大规模NTU RGB-D数据集表明,我们的方法优于大多数基于rnnn的方法,验证了空间和时间信息的互补性和对噪声的鲁棒性。
动作识别在智能监控[1]、人机交互[2]、视频分析[3]等应用中得到了广泛的应用。3 -与2d RGB视频相比,人类动作的D表示提供了更全面和更有区别性的信息。近年来,基于骨骼的3D动作识别由于其高水平的表现以及对外观和周围干扰[4]、[5]、[6]、[7]的鲁棒性,越来越受到人们的关注最近,递归神经网络(RNN)的模型和长-短期记忆(LSTM)神经元[8]、[9]被用来建模骨架序列[10]的时间演化。这些基于rnnn的方法往往会过度强调时间信息[11]。然而,最有效的行动识别需要时空信息的结合。考虑到3D卷积神经网络通过执行3D卷积[12]作为动作识别、目标识别[13]、车辆检测[14]和人体姿态估计[15]接收三维输入的自然而合适的选择。因此,该本文提出了一种新的两流三维CNN模型,旨在同时增强空间和时间信息。首先,我们使用Liu等人[16]提出的基于序列的转换方法,消除了视图变化的影响。进一步,将每个动作序列转换后的骨架关节映射到三维坐标空间中。其次,为了便于三维CNN学习鲁棒性特征,将骨骼关节分别编码为空间体积和时间体积通过编码空间和时间信息。第三,twostream 3D CNN在较好的时间尺度上分别捕捉时空信息,增强了时空特征。最后,我们将原始骨架序列转化为多时间序列,以获取大规模的时间

本文提出了一种两流三维卷积神经网络模型,用于人体骨架基的动作识别。通过将骨骼关节映射到三维空间并分别编码时空信息,结合3D CNN,该方法能有效提取时空特征,提高识别性能,并对噪声具有鲁棒性。实验在SmartHome和NTU RGB-D数据集上展示了优越的性能。
最低0.47元/天 解锁文章
621

被折叠的 条评论
为什么被折叠?



