Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition
版权声明:本文为博主原创文章,未经博主允许不得转载 https://blog.youkuaiyun.com/heruili/article/details/88085829 >
Yansong Tang1,2,3,∗ Yi Tian1,∗ Jiwen Lu1,2,3 Peiyang Li1 Jie Zhou1,2,3
CVPR2018
在这篇论文中,我们提出了一个在基于骨骼视频做行为识别的深度渐进式强化学习方法(DPRL),目的是为了识别动作而提取最具信息量的帧,然后去除不明确的帧。因为为每一个视频选择最具代表性得帧是多种多样的,我们构建了帧选择模型是一个渐进的过程通过深度强化学习。在我们逐渐调整选择帧的时候主要考虑两个重要的因素:(1)被选择帧得质量(2)是被选择的帧和整个视频之间的关系。而且,考虑到人类身体固有的拓扑结构是基于图的架构,这些顶点和边缘分别代表了铰接头和硬骨,我们应用了基于图得卷积神经网络来刻画动作识别时这些关节的依赖。我们的方法在三个广泛使用的数据集上实现了很好的效果。
先说一下基本概念。最初的时候我看这篇论文好多没搞明白就查了一些资料,后来看了基本概念在看论文就明白了
1、绪论
行为识别在计算机视觉中是一个重要的研究方向,它有着广泛得应用,比如视频监控,人机交互等等。和传统的RGB视频相比,基于骨骼得序列包含了主要的身体关节的紧凑的3D位置,这对于视角,身体尺寸以及运动速度得多样性很健壮。因此,基于骨骼的动作识别在近几年来吸引了越来越多得注意。
随着深度传感器(比如Kinect)的越来越划算以及姿态识别算法的发展,基于骨骼的数据数量发展迅速。因此基于数据驱动的方法已经被逐渐提出为了基于骨骼得动作识别,通过训练像循环神经网络(RNN)以及卷积神经网络(CNN)的深度模型。基于RNN的模型有建模时序依赖的能力,但是实际上训练堆叠的RNN这是很困难的。另一方面,基于CNN的莫模型,刻画了相邻帧在底层的关系以及在高层的长期依赖,是更加有效的并且近来取得了很有前景的性能。然而,大多数的基于CNN的方法在基于骨骼的动作识别中是把一个序列的所有帧视为同等重要,这使得不能聚焦于最具代表性的帧。以踢这个动作的视频作为例子,在一些帧里面这个目标对象时直立的站着,同时其他的帧这个目标对象踢出了腿。后者在识别这个动作时是更具有信息量的。
为了在一个序列中寻找最具代表性的帧,我们提出了一个深度渐进式的强化学习方法(DPRL)。因为为每一个视频选择最具代表性得帧是多种多样的,我们构建了帧选择模型是一个渐进的过程。具体来说,给定初始化的帧,