
一、概述
人体姿态估计(Human Pose Estimation,HPE)是计算机视觉领域的核心任务之一,旨在通过静态图像或视频序列自动检测并定位人体的关键关节(如头部、颈部、肩膀、肘部、手腕、髋部、膝盖和脚踝等),进而重建人体的二维或三维骨架模型。精确的姿态估计对于动作识别、虚拟现实、增强现实、人机交互、运动分析、智能监控等应用场景具有重要价值。
-
发展历程
早期的姿态估计方法多依赖于手工设计特征和图模型(如Pictorial Structures),在小规模、简单背景的人体图像上能取得一定效果,但在复杂场景中表现不足。近年深度学习尤其是卷积神经网络(CNN)以及后续的图卷积网络(GCN)、Transformer 等新兴架构,推动了该领域的飞跃发展,使得多人体、多尺度、遮挡严重等复杂场景下的姿态估计成为可能。 -
数据集与标注
常用数据集包括 COCO(17 个关键点)、MPII(16 点)、Human3.6M(三维姿态)等。本文采用基于 COCO 的 18 点标注(在原有 17 点基础上额外添加“颈部”关键点),其中“颈部”