摘要
实时多人二维姿态估计是使机器了解人的关键组成部分图像和视频。在这项工作中,我们提出了一种实时检测图像中多个人的二维姿态的方法,被提议的方法使用非参数表示,我们将其称为部分亲和域(paf),以学习将身体部位与之关联图像中的个体。这种自下而上的系统无论人数多少都能实现高精度和实时性的形象,在之前的工作中,paf和身体部位位置估计是在训练阶段同时细化的。我们证明仅对PAF进行细化,而不是PAF和身体部位定位的细化,会导致两者都大幅增加运行时性能和准确性。我们还提出了第一个结合体和脚的关键点探测器,基于内部注释我们已经公开发布了足部数据集。我们证明了联合检测器不仅减少了推理时间按顺序运行它们,但也保持了每个组件单独的准确性。这项工作达到了顶峰,OpenPose,首个用于多人二维姿态检测的开源实时系统,包括身体、脚、手和面部关键点
论文摘要:https://arxiv.org/pdf/1812.08008.pdf
代码链接:https://www.github.com/ildoonet/tf-pose-estimation(如若代码失效,私聊获取)
数据集链接:https://cmu-perceptual-computing-lab.github.io/foot_keypoint_dataset/
一、介绍
在本文中详细了解图片和视频的任务
人类二维姿态估计:或者可以说是一个定位问题,点,“部分的操作”
人类估计主要集中在寻找个体的身体部位。推断圈中多个人的姿势在图片中呈现出独特的挑战。首先,每个图像可能包含一个未知数可以以任何位置或比例出现的人数。第二,人与人之间的互动诱发了复杂的空间由于接触、闭塞或肢体关节造成的干扰。
常用的方法是人侦测器,对每个检测进行单人姿态估计。这些自顶向下的方法直接利用现有的方法,然而自下而上的方法并不直接利用身体其他部位的整体上下

图1:上图多人姿态估计,身体的各个不为都是渴望与同一人相连的,包括脚的关键部位(大脚趾、小脚趾和高跟鞋),左下部分对于肢体的连接手腕和肘部,每个像素中的2d方向和四肢位置作为最终的解析,效率的提高需要昂贵的全局解析推论,每副图像花费几分钟。
本文提出了一种具有竞争性能的多人姿态估计方法多个公共基准。我们通过部分亲和力给出了第一个自底向上的关联分数表示字段(PAFs),一组2D矢量字段,用于编码四肢在图像域中的位置和方向。我们演示了同时推断这些自底向上的检测和关联编码表示足够的全局上下文使贪婪解析达到高质量的结果,结算成本的一小部分。

图2:(a)我们的方法将整个图像作为CNN的输入,共同预测(b)置信度 ©零件关联的paf。(d)解析步骤执行一组二部匹配联想身体部位候选人。(e)我们最终将它们组合成图片中所有人的全身姿势。
PAF:这是一个向量场的集合,其中每一个向量场从属于图像中某一躯体部位,向量场中的每一个向量对应躯体部位区域每一个元素在其中的一个2D向量编码指向下一个关键关节的方向
openpose所带来的贡献(改进方法):
- 证明PAF细化是最大化acc准确率的关键,而身体部分预测的细化不是最重要的。
- 增加了网络深度,但删除了身体部分的阶段(3讲解)
- 这种精细的网络提高了速度和准确分别为200%和7%
- 其次提出了一个公开数据,脚和身体关键点训练保存的模型速度。
- 包含了与Mask的运行时R-CNN和ALpha-Pose,显示计算自下而上方法的有点。
二、相关工作
单人姿势估计的传统方法关节式人体姿态估计是进行推理通过对身体部位的局部观察以及它们之间的空间依赖性。关节位姿模型是基于树形结构的图形模型度量地编码相邻的空间关系遵循运动链的部分,或非树模型增加树形结构额外的边捕捉遮挡,对称,和长范围关系。以获得可靠的局部观测资料卷积神经网络(cnn)广泛应用,显著提高了人体姿态估计的准确性。Tompson等Al .使用了带有图形模型的深层架构其参数与网络联合学习Pfister等人进一步使用cnn隐式捕捉通过设计具有全局空间依赖性的网络。
对于多人姿态估计,大多数方法为自上而下的策略,检测人,然后估计每个检测区域的独立的独立人员。从paf中获得两两分数额外的训练步骤。这些分数足以贪婪的解析以获得高质量的实时结果多人评估性能。并发到这个Insafutdinov等人的进一步简化了他们的身体部分关系图,以便在单帧中更快地推理模型和制定铰接式人体跟踪作为空间时间分组的部分建议等人提出了联想嵌入认为作为标签代表每个关键点的组。他们将具有相似标签的关键点分组为,单个人提出检测单个关键点并预测其相对位移,允许a贪婪解码过程将关键点分组为人实例。Kocabas等人提出了一个姿势残差接收关键点和人员检测的网络,然后将关键点分配给被检测人的边界盒子。Nie等人提出利用密集回归从候选关键点划分保护的所有关键点到图像中人物的质心。

图3:多级CNN的架构。第一组阶段预测paf而最后一组预测了. 每个阶段的预测和他们的对应的图像特征被连接起来随后的阶段。内核大小为7的卷积,原来的方法被替换为内核3的3层convolu,在它们的末端连接。
在这项工作中,我们对前面的工作做了几个扩展工作、。我们证明了PAF的细化是至关重要的,并且足以提高精度,去除身体部分的置信度地图细化,同时增加网络深度。这导致了更快更准确的模型。我们还展示了第一个结合体和脚的关键点探测器,创建来自将公开发布的注释脚数据集。我们证明了结合两种检测方法不会只比运行它们减少了推断时间但同时也保持了他们个人的准确性。最后,我们介绍OpenPose,第一个开源库用于实时的身体、脚、手和面部关键点检测。
三、方法
图2显示了我们方法的整体流程。以w × h的彩色图像作为输入(图2a)并生成解剖关键点的二维位置(图2e)。首先,一个前馈网络预测一组体的二维置信度图S(图2b)和一组的二维向量场L部分亲和场(paf),编码部分之间的关联程度(图2c)。为清晰起见,将部分成对称为四肢,但有些成对是不是人的四肢(如脸)。Lc中的每个图像位置编码一个2D矢量(图1)。最后,置信度映射通过贪婪推理对paf进行解析(图2d)为图像中的所有人输出2D关键点。
3.1网络体系结构
我们的架构,如图3所示,迭代地预测亲和性编码部分到部分关联的字段,用蓝色表示,以及米色的探测置信图。it预测体系结构,遵循[20],细化了连续阶段的预测,t∈{1,…T}每一阶段的中间监督。
网络深度相对于增加。在最初的方法,包括网络体系结构
几个7x7的卷积层。在我们目前的模型中,当计算被保留时,接收域被保留通过将每个7x7卷积核替换为3来减少连续3 x3的内核。而操作的次数前者是2 × 7**2−1 = 97,后者仅为51。另外,输出每个3个卷积内核是按照类似的方法连接的DenseNet。非线性层的数量增加了两倍,网络既可以保持低层次,也可以保持高层次级功能。第5.2节和5.3节分析了准确性和运行时速度的改进。
3.2同时检测与关联
图像由CNN分析(由前10初始化)层的vgg19和微调),生成一组特征映射F是第一阶段的输入。在这个阶段,网络产生一组部分亲和场(PAFs)参考cnn的推断在阶段1。在接下来的每个阶段,预测来自前一阶段与原始图像特征F为连接并用于产生精确的预测。

为t阶段推断的cnn,和TP等于总PAF阶数。TP迭代后,对置信图检测重复这个过程,从最新的PAF预测开始,
为t阶段推断和TC的cnn到总置信度图阶段的数量。这种方法不同于CVPR,在CVPR中,PAF和每个阶段都细化了置信图分支。因此,每一级的计算量减少了一半。我们在第5.2节中通过经验观察到这种精炼的亲和力现场预测提高了置信度图的结果反之则不成立。直觉上,如果我们看PAF通道输出,身体部位位置可猜测。但是,如果我们只看到一堆身体部位信息,我们无法对不同的人进行分析。

图4:右前臂跨阶段paf。虽然左右身体部位和四肢是否混淆在早期阶段,估计越来越精确后期阶段的整体推理。
最新和最精确的PAF预测,导致在信心图的各个阶段几乎没有明显的差异。引导网络对人体paf进行迭代预测第一个分支中的部分和第二个分支中的置信映射分支,我们在每个阶段的最后应用一个损失函数。我们在估计的预测和地面真理地图和田野。在这里,我们计算损失空间功能来解决一些实际问题数据集不能完全标记所有人。具体来说,ti阶段PAF分支的损失函数和损失函数的置信映射分支在阶段tk为:
L在哪里和真实的paf对比,置信映射,W为W§ = 0的二进制掩码当注释在像素p处缺失时用来避免惩罚真正积极的预测
在培训。各阶段的中间监督通过补充来解决渐变消失的问题
梯度周期性地为CVPR。总体目标是

本文提出了一种实时、高效且精确的多个人体姿态估计方法,利用部分亲和域(PAF)来表示身体部位间的关联。通过证明PAF细化的重要性,我们优化了网络结构,显著提升了速度和准确度。同时,我们开发了首个结合体和脚的关键点检测器,有效减少了推理时间。OpenPose作为首个开源系统,支持实时的全身关键点检测,包括身体、脚、手和面部,适用于各种计算机视觉应用。
最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



