- 3D Human Motion Estimation via Motion Compression and Refinement[1]
- 一个两阶段的基于视频的3d人体motion estimation。
- 本文是在VIBE[2]的基础上做的,文章指出之前所提出的方法的衡量指标是MPJPE,只是强调空间上的准确性,忽略了temporal smoothness,所以VIBE在进行可视化的时候会发现“jitter”的存在。下图用加速度误差这个指标衡量了temporal smoothness,可见本文的方更平滑,同时最后论文结果MPJPE也更低。

2. Acceleration error,加速度误差:用来衡量3d joints的平滑性,计算代码如下,来源于[3]

3. story
- 本文指出,由于people share相同的人体结构(就是都使用了SMPL人体模型),所以it is possible to learn a generalized kinematic model that can be matched against the image to infer the general motion of a person. However, since generalized models of motion can also fail to model person-specific motions, it may also be necessary to ‘add back in’ or refine the general motion estimates using image evidence。(这就是介绍为啥本文要设计成两个阶段,而不是一个阶段)。第一阶段得到一个coarse kinematic sequences of a person in a video,第二阶段是一个残差结构,把第一段的结果和原始特征concat到一起,迭代refine得到一个精细的结果,这样最后结果就能有准确,又smooth。这里准确容易理解,smooth的话下面详细的说一下。
- smooth:文章先说了一下以前是怎么解决smooth问题的如下图原文

最后也指出了仅仅把smooth的先验用到loss function是很难找到准确性和smooth的balance。本文使用了Variational Autoencoder (VAE不熟悉VAE的可以自行补课)。就是先在AMAAS上训练VAE,VAE的作用是什么呢就是学到AMAAS上包含的人体motion的准确性和smooth,就是训练好的VAE能encode到smooth这个信息。但是AMAAS数据中包含的动作有限,所以会遇到其他动作,这就需要第二部refine的操作得到最终又准确又smooth的结果。

。
本文介绍了一个两阶段的基于视频的3D人体运动估计方法,该方法在VIBE基础上改进。指出此前方法衡量指标忽略了时间平滑性,本文方法更平滑且MPJPE更低。设计两阶段是因通用模型可能无法模拟特定动作,使用VAE学习人体运动的准确性与平滑性,经第二阶段细化得到最终结果。
555





