3D pose estimation 综述_3d human pose estimation from monocular images wit-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_40017911/article/details/88722422

3D人体姿态估计在自动驾驶、机器人导航等领域至关重要。本文综述了相关研究，涉及从单个图像到视频序列的行人姿态识别、预测和建模。研究表明，深度学习方法，如CNN和RNN，已取得显著进步，但仍有挑战，如长期预测和多人体交互的准确性。论文提出了多种框架和模型，如ERD、PredNet、3D-pfnet等，以提高预测精度和处理复杂场景的能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

3D pose estimation 综述

想象一下，一辆自动驾驶汽车正驶向拥挤的城市交叉路口的场景。识别正在移动的行人，并预测行人或一群行人可能在几秒钟内的位置，以决定是否和何时刹车显得很关键。再想象一个机器人在博物馆或挤满行人的购物中心担任导游。机器人识别周围人的方位和位置是很重要的，可以提供更好的引导，避免撞到行人。在这些场景中，准确的行人姿态和位置预测对于促进更有效的人机交互和车辆避碰有着巨大的影响。

人体姿态估计在以下文献中进行了大量的研究：

[1]. E. Simo-Serra, A. Quattoni, C. Torras, and F. Moreno-Noguer, “A joint model for 2-D and 3-D pose estimation from a single image,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2013, pp. 3634–3641.

本文介绍了一种从单个图像中自动恢复三维人体姿态的新方法。之前的大多数工作都遵循流水线方法:首先，在图像中检测一组二维特征，如边缘、关节或轮廓，然后使用这些观察结果推断出三维姿态。当特征检测器性能较差时，单独解决这两个问题可能会导致错误的三维姿态。在本文中，作者通过共同解决二维检测和三维推理问题来解决这一问题。为此，作者提出了一个贝叶斯框架，该框架集成了基于潜在变量的生成模型和基于hog的判别二维零件检测器，并使用进化算法进行推理。即使在2D检测器不准的情况下，真实的实验验证了作者提出方法的竞争性与提供精准的2D和3D姿态估计的能力。

[2]. S. Li and A. B. Chan, “3-D human pose estimation from monocular images with deep convolutional neural network,” in Proc. Asian Conf. Comput. Vis., 2014, pp. 332–347.

本文提出了一种基于深度卷积神经网络的单目三维人体姿态估计方法。作者使用两种策略来训练网络:(1)一个多任务框架，联合训练位姿回归和身体部位检测器;(2)一种预训练策略，使用训练好的用于身体部位检测的网络初始化姿态回归器。作者在一个大数据集上比较他们的网络，并在基线方法的基础上实现了显著的改进。人体姿态估计是一个结构化的预测问题。，每个身体部位的位置是高度相关的。虽然作者没有在网络中添加关于身体各部分之间相关性的约束，但作者的经验表明，网络已经解决了身体各部分之间的依赖关系，并学会了它们之间的相关性。

[3]. A. Toshev and C. Szegedy, “Deeppose: Human pose estimation via deep neural networks,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2014, pp. 1653–1660.

这篇论文提出了一种基于深度神经网络的人体姿态估计方法。姿态估计是一个基于神经网络的人体关节回归问题。作者提出了一种级联的DNN回归器，可以得到高精度的位姿估计。该方法的优势在于以整体的方式对姿势进行推理，并利用深度学习的最新进展，提出了一个简单但强大的公式。作者在不同真实世界图像的四个学术基准上提供了详细的实证分析，展示了最新或更好的表现。

[4]. K. Fragkiadaki, S. Levine, P. Felsen, and J. Malik, “Recurrent network models for human dynamics,” in Proc. IEEE Int. Conf. Comput. Vis., 2015, pp. 4346–4354.

本文提出了一种用于视频和运动捕捉中人体姿态识别和预测的编码递归解码器(ERD)模型。ERD模型是一个递归神经网络，包含了递归层前后的非线性编解码器网络。作者在视频中测试了ERD架构的实例化，包括动作捕捉(mocap)生成、身体姿态标记和身体姿态预测。作者的模型处理跨多个主题和活动领域的mocap训练数据，并在避免长时间漂移的同时合成新的运动。在人体姿态标注方面，ERD通过解决左右身体部位的混淆，优于单帧身体部位检测器。在视频位姿预测方面，ERD预测了人体关节在400ms时域内的位移，优于基于光流的一阶运动模型。ERDs扩展了文献中以前的长短时记忆(LSTM)模型，共同学习表示及其动态。实验表明，这种表示学习对时空标记和预测都具有重要意义。作者发现，与一维文本、语音或手写相比，这是时空视觉域的一个显著特征，在一维文本、语音或手写中，直接的硬编码表示形式与递归单位直接结合时，显示出很好的效果。

[5]. S. Park, J. Hwang, and N. Kwak, “3-D human pose estimation using convolutional neural networks with 2-D pose information,” in Proc. Eur. Conf. Comput. Vis., 2016, pp. 156–169.

虽然卷积神经网络(CNNs)在二维人体姿态估计方面已经取得了一定的成功，但对三维人体姿态估计的研究还不够深入。此文利用神经网络进行端到端学习，解决了三维人体姿态估计问题。一个关节和另一个关节之间的相对三维位置是通过神经网络来学习的。该方法具有两个新颖的思想，提高了CNN的性能。首先，通过将二维位姿估计结果与图像的特征相结合，添加二维位姿信息来估计图像的三维位姿。其次，作者发现，通过结合多个关节的相对位置信息，而不仅仅是一个根关节，可以获得更精确的三维姿态。实验结果表明，该方法在人类3.6m数据集上取得了与现有方法相当的性能。

[6]. A. Jain, A. R. Zamir, S. Savarese, and A. Saxena, “Structural-RNN: Deep learning on spatio-temporal graph