NTU RGB+D
NTU RGB + D优势:
- 更多的动作类
- 每个动作类更多的样本
- 类内变换(姿势,环境条件,交互对象,演员年龄,…)
- 更多的摄影机视角
- 更多的摄影机到对象距离
- 使用的Kinect v.2,可提供更准确的深度图和3D关节,尤其与Kinect的先前版本相比更多摄影机设置下
动作类:我们总共有60个动作类,分为三大类:每日40个动作(饮酒,进食,阅读等),9个与健康有关的动作(打喷嚏,蹒跚,跌倒等),以及11种相互配合的动作(打孔,踢脚,拥抱等)。
视图:我们同时使用了三个摄像机,以从同一动作中捕获三个不同的水平视图。对于每种设置,三个摄像头都位于相同的高度,但处于三个不同的水平角度:-45°,0°,+ 45°。每个对象被要求执行两次动作,一次是朝左相机,一次是朝右相机。这样,我们捕获了两个正视图,一个为左侧视图,一个为右侧视图,一个为左侧45度视图,另一个为右侧45度视图。三个摄像机分配了一致的摄像机编号。摄像机1始终观察45度视角,而摄像机2和3始终观察正视图和侧视图。为了进一步增加摄像机的视角,在每种设置下,我们都更改了摄像机与被摄对象之间的高度和距离。
基准评估:
- X-Sub:在跨学科评估中,我们将40个科目分为训练和测试组。每组包括20个科目。对于此评估,训练和测试集分别具有40,320和16,560个样本。此评估中的训练对象ID为:1、2、4、5、8、9、13、14、15、16、17、18、19、25、27、28、31、34、35、38;其余科目保留供测试。
- X-View:为了进行交叉视图评估,我们选择相机1的所有样本进行测试,并选择相机2和3的样本进行训练。换句话说,训练集包括动作的正视图和两个侧视图,而测试集包括动作表演的左右45度视图。对于此评估,训练和测试集分别具有37,920和18,960个样本。
传统RNN和LSTM:
RNN:
h t = σ ( W ( x t h t − 1 ) ) , h t = σ ( V h t ) {\bf h}_t=\sigma\left (\bf W \binom{x_t}{h_{t-1} } \right ),{\bf h}_t=\sigma(\bf V \bf h_t) ht=σ(W(ht−1xt)),ht=σ(Vht)
( i f o g ) = ( S i g m S i g m S i g m T a n h ) ( W ( x t h t − 1 ) ) \begin{pmatrix}i\\f\\o\\g\end{pmatrix}=\begin{pmatrix}Sigm\\Sigm\\Sigm\\Tanh\end{pmatrix}\left(\bf W \binom{ {\bf x}_t}{h_{t-1} } \right ) ⎝⎜⎜⎛ifog⎠⎟⎟⎞