3D Human Motion Estimation via Motion Compression and Refinement

最新推荐文章于 2022-08-31 15:22:37 发布

原创最新推荐文章于 2022-08-31 15:22:37 发布 · 506 阅读

0 ·

CC 4.0 BY-SA版权

SMPL&&STAR 专栏收录该内容

2 篇文章

订阅专栏

本文介绍了一个两阶段的基于视频的3D人体运动估计方法，该方法在VIBE基础上改进。指出此前方法衡量指标忽略了时间平滑性，本文方法更平滑且MPJPE更低。设计两阶段是因通用模型可能无法模拟特定动作，使用VAE学习人体运动的准确性与平滑性，经第二阶段细化得到最终结果。

3D Human Motion Estimation via Motion Compression and Refinement[1]

一个两阶段的基于视频的3d人体motion estimation。
本文是在VIBE[2]的基础上做的,文章指出之前所提出的方法的衡量指标是MPJPE，只是强调空间上的准确性，忽略了temporal smoothness，所以VIBE在进行可视化的时候会发现“jitter”的存在。下图用加速度误差这个指标衡量了temporal smoothness，可见本文的方更平滑，同时最后论文结果MPJPE也更低。

2. Acceleration error,加速度误差:用来衡量3d joints的平滑性，计算代码如下，来源于[3]

3. story

本文指出，由于people share相同的人体结构（就是都使用了SMPL人体模型），所以it is possible to learn a generalized kinematic model that can be matched against the image to infer the general motion of a person. However, since generalized models of motion can also fail to model person-specific motions, it may also be necessary to ‘add back in’ or refine the general motion estimates using image evidence。（这就是介绍为啥本文要设计成两个阶段，而不是一个阶段）。第一阶段得到一个coarse kinematic sequences of a person in a video，第二阶段是一个残差结构，把第一段的结果和原始特征concat到一起，迭代refine得到一个精细的结果，这样最后结果就能有准确，又smooth。这里准确容易理解，smooth的话下面详细的说一下。
smooth:文章先说了一下以前是怎么解决smooth问题的如下图原文

最后也指出了仅仅把smooth的先验用到loss function是很难找到准确性和smooth的balance。本文使用了Variational Autoencoder (VAE不熟悉VAE的可以自行补课）。就是先在AMAAS上训练VAE，VAE的作用是什么呢就是学到AMAAS上包含的人体motion的准确性和smooth，就是训练好的VAE能encode到smooth这个信息。但是AMAAS数据中包含的动作有限，所以会遇到其他动作，这就需要第二部refine的操作得到最终又准确又smooth的结果。