这篇论文是作者在 CVPR 2017发的论文 https://arxiv.org/abs/1611.08050的基础上进行了改进。
GitHub主页:https://github.com/CMU-Perceptual-Computing-Lab/openpose
Links to the papers : https://arxiv.org/abs/1812.08008
—————————————————————————————————————————————————————
openpose
越来越多的计算机视觉和机器学习应用需要二维人体姿态估计作为系统输入。为了顺利开展这样的工作,作者发布了OpenPose,
这是第一个在单个图像上联合检测人体、脚、手和面部关键点(总共135个关键点)的实时多人系统。整个系统的示例如下图。
openpose由3个不同的块组成:
(a)body+foot detection(最核心的)
(b) hand detection
(c)face detection
—————————————————————————————————————————————————————
目标:
在这篇论文里,我们想要做的工作是从视频里或图像中得到人体的二维姿态估计。也可以说是 关键点或者体块的定位问题。
多人姿态估计的挑战:
1、每张图像中的人数未知,这些人可能以任何比例、在任何位置出现。
2、人与人之间的干扰,比如说遮挡什么的,都不利于分辨体块之间的关系。
3、随着人数的增加,运行时间复杂度随之增加。
方法:
做姿态估计一般有两种方法
1、top-down:(自上而下)
先检测人,再回归关键点。
2、down-top:(自底向上)
由关键点的位置得到骨架。
本文用的就是第二种自底向上的方法。
新的贡献:
1、与之前那篇文章相比,增加了网络的深度,对PAF和热图的估计是在两个阶段完成的,减少了计算量。
之前的网络:
本文的网络:
2、提供了一个带标签的足部的数据集。
3、我们的方法还可以用在别的地方,比如说车辆的关键点检测。
4、发布了o