Abstract
- 提出基于二维关键点上的时间空洞卷积的全卷积模型;
- 介绍了一种利用无标记视频数据的半监督训练方法——反投影;
- https://github.com/facebookresearch/VideoPose3D
Introduction
工作重点:
- 视频三位人体姿态估计
难点:
- 多个3D姿势可以映射到相同的2D关键点(模糊性);
- 低资源,缺乏标记数据;
方法:
- 提出了一种基于二维关键点轨迹上的时间卷积的视频三维人体姿态估计方法:该结构在二维关键点上执行时间卷积,可降低复杂度和参数个数;
- 利用未标记数据进行半监督学习,使用现成的2D键点检测器预测未标记视频的2D键点,预测3D姿态,然后将它们映射回2D空间(只需要摄像机的内部参数);
Related work
- 两步走方法(先预测2D关键点然后提升到三维空间),受益于中间监督,效果优于端到端;
- 使用关键点坐标定位而非热图(heatmap计算成本高,准确性取决于分表率);
- 对时间进行一维卷积;
- 使用Mask R-CNN和CPN,相比stacked hourglass更具有鲁棒性。