目录
论文名称:View Adaptive Recurrent Neural Networks for High Performance Human Action Recognition from Skeleton Data(2017 ICCV)
下载地址:https://arxiv.org/pdf/1703.08274.pdf
Motivation
采集骨架点的相机视角的不同 和 视频中的人做动作方向的不同 给骨架点人体动作识别任务带来了一定困难。
之前大家解决这个困难的方法是:将视频中每一帧的骨架中心点数据放置于原点,并将骨架点数据绕原点进行旋转,使得身体平面平行于 xy 平面。
但这样会丢失身体的运动信息,包括运动轨迹、身体中心运动的速度和身体变化的方向,导致例如走路这个动作变为原地行走,跳舞这个动作变为朝着一个固定的方向进行等情况。
所以,作者提出了一个端到端训练的、自适应视角的骨架点人体动作识别框架。
Preliminaries
视角变换的数学公式:
其中, 指的是第 t 帧中的第 j 个节点的数据。
是第 t 帧所有骨架点的位移参数。
是第 t 帧所有骨架点的旋转参数。
Proposed Method
作者提出了一个端到端训练的、自适应视角的骨架点人体动作识别框架。
该框架包含两个部分:视角适应子网 和 主 LSTM 网络。
- 视角适应子网:用来自动学习两个参数,即视角变换数学公式中的两个参数:rotation(
) 和 translation(
),找到最适合对该段视频进行动作识别每一帧的视角。
再对每一帧的骨架点数据进行相同的视角变化。
- 主 LSTM 网络:对经过视角变化的骨架点数据进行动作识别。
端到端的训练主要体现在:通过主 LSTM 网络的动作识别的误差来调整视角适应子网的参数。

本文介绍了一种端到端的ViewAdaptive Recurrent Neural Networks (VARNNs)方法,用于从骨架数据中实现高性能人体动作识别。针对不同视角带来的识别难题,作者提出自动学习视角变换参数,保留身体运动信息,提升动作识别准确性。视角适应子网学习旋转和平移参数,然后应用到骨架数据上,主LSTM网络则对变换后的数据进行识别。通过端到端训练,网络能优化视角变换以提高识别效果。
1393

被折叠的 条评论
为什么被折叠?



