ED-Pose: 统一端到端多人姿态估计的显式检测框方法
多人姿态估计是计算机视觉领域的一个重要任务,其目标是在图像中定位和识别多个人体的关键点位置。近年来,随着深度学习技术的发展,该领域取得了显著进展。然而,现有方法仍面临着诸如处理复杂场景、提高效率等挑战。针对这些问题,来自IDEA Research的研究团队提出了一种名为ED-Pose的创新方法,通过引入显式检测框的概念,实现了端到端多人姿态估计的统一框架。
ED-Pose的核心思想
ED-Pose的核心思想是将多人姿态估计任务重新定义为两个显式的检测框过程:人体检测和关键点检测。这种方法的独特之处在于:
-
统一表示和回归监督:ED-Pose采用统一的表示方法来描述人体和关键点,并使用相同的回归损失函数进行监督学习。
-
端到端学习:整个网络可以从头到尾进行端到端训练,无需复杂的后处理步骤。
-
简洁高效:ED-Pose摒弃了传统方法中常用的密集热图监督,概念上更加简单明了。
ED-Pose的技术创新
ED-Pose在技术实现上有以下几个关键创新点:
-
人体检测解码器:
- 从编码的特征中提取全局人体特征
- 为后续的关键点检测提供良好的初始化
-
关键点检测:
- 将姿态估计视为关键点框检测问题
- 同时学习每个关键点的框位置和内容
-
人体到关键点的检测解码器:
- 采用人体特征和关键点特征之间的交互学习策略
- 进一步增强全局和局部特征的