3D human pose 重要论文分类（持续更新）

最新推荐文章于 2024-11-27 10:59:56 发布

原创

最新推荐文章于 2024-11-27 10:59:56 发布 · 5k 阅读

56 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #深度学习

这篇博客整理了从传统方法到深度学习方法的3D人体姿态估计算法，涵盖从单幅图像直接预测3D pose、2D pose到3D pose的转换以及多视图处理等不同技术。其中，强调了深度学习在3D人体姿态估计领域的进步，包括使用深度网络直接回归3D关键点坐标和结合2D pose信息的方法。

3D human pose 重要论文整理（持续更新）

内容较多，提供目录便于查找

传统方法

*[1] Chunyu Wang,Yizhou Wang,Zhouchen Lin,Alan L. Yuille,Wen Gao. Robust Estimation of 3D Human Poses from a Single Image. In the Center for Brains, Minds and Machines(CBMM), 2014（用优化的方法进行2D pose到3D pose的三维重建）

*[2] Atul Kanaujia. Coupling Top-down and Bottom-up Methods for 3D Human Pose and Shape Estimation from Monocular Image Sequences. 2014

*[3] Behnam Babagholami-Mohamadabadi, Amin Jourabloo, Ali Zarghami, and Shohreh Kasaei . A Bayesian Framework for Sparse Representation-Based 3D Human Pose Estimation. In IEEE Signal Processing Letters (SPL), 2014

深度学习方法

3D Pose

从单幅图像直接出3D pose

[1] Sijin Li and Antoni B Chan. 3d human pose estimation from monocular images with deep convolutional neural network. In Asian Conference on Computer Vision (ACCV), pages 332–347, 2014.

第一个利用该思路进行三维人体姿态估计的工作，也是使用深度学习进行三维人体姿态估计的工作。该工作首先使用一个8层的网络做一个目标检测的视觉任务。然后将用来做特征提取部分的CNN层来作为三维人体姿态估计的初始化模型，并丢弃掉目标检测网络头部分进行训练。该方法相对于传统方法明显的提高。

[2] Sijin Li, Weichen Zhang, Antoni B. Chan. Maximum-Margin Structured Learning with Deep Networks for 3D Human Pose Estimation.CVPR, 2015

该网络除了从图像直接回归三维关键点坐标外，还加入了一个新的分支。该分支只在训练时发挥作用，其接收三维姿态的真是标注作为输入，然后经过多层感知机提取特征。然后利用该特征作为监督来训练，整个网络看上去也是一个多任务网络。

[3] Sungheon Park, Jihye Hwang, and Nojun Kwak. 3d human pose estimation using convolutional neural networks with 2d pose information. In Proceedings of the European Conference on Computer Vision (ECCV), pages 156–169, 2016.

提出的整个的网络的结构与[1]类似，不同点在于该网络使用的是二维姿态估计作为另一个任务分支的监督且这两个任务一同训练。

[4] Bugra Tekin, Isinsu Katircioglu, Mathieu Salzmann, Vincent Lepetit, and Pascal Fua. Structured prediction of 3d human pose with deep neural networks. In British Machine Vision Conference (BMVC), 2016.

首先利用三维关键点坐标作为输入和监督来预训练一个自编码-解码器，预训练好后保留解码器。之后在主网络中输入图像经过CNN提取特征不直接回归三维人体关键点坐标，而是来预测解码器输入端的隐向量，该隐向量通过解码器解码出三维人体关键点位置，在这个过程中解码器的参数不会更新。

*[5] Albert Haque, Boya Peng, Zelun Luo, Alexandre Alahi, Serena Yeung, Li Fei-Fei. Towards Viewpoint Invariant 3D Human Pose Estimation. ECCV, 2016.(从单一深度图出3D pose）

[6] 3D Human Pose Estimation in the Wild by Adversarial Learning. CVPR 2018.
在这里插入图片描述

由单幅图的2D pose 出3D pose

[1] Julieta Martinez, Rayat Hossain, Javier Romero, and James J. Little. A simple yet effective baseline for 3d human pose estimation.ICCV 2017.

*[2] Hao-Shu Fang, Yuanlu Xu, Wenguan Wang, Xiaobai Liu, Song-Chun Zhu. Learning Pose Grammar to Encode Human Body Configuration for 3D Pose Estimation. AAAI 2018.
在这里插入图片描述
[3] Unsupervised Adversarial Learning of 3D Human Pose from 2D Joint Locations. 2018.

[4] Matteo Ruggero Ronchi, Oisin Mac Aodha, Robert Eng, and Pietro Perona. It’s all relative: Monocular 3d human pose estimation from weakly supervised data. In British Machine Vision Conference (BMVC), 2018.

[5] 3D Human Pose Estimation with Relational Networks. BMVC 2018.
在这里插入图片描述
[6] 3D Human Pose Estimation with Siamese Equivariant Embedding. Neurocomputing 2018.

[7] RepNet: Weakly Supervised Training