姿态估计之2D人体姿态估计 - PifPaf:Composite Fields for Human Pose Estimation

本文介绍了一种专为交通场景设计的新型自下而上人体姿态估计算法PifPaf,通过PartIntensityField(PIF)定位身体部位和PartAssociationField(PAF)关联关节,适用于低分辨率和密集人群。PifPaf在处理复杂交通场景时表现出色,且在COCO任务上与顶级方法性能相当,尤其在运输领域的改进任务中取得领先。

参考:

PifPaf: Composite Fields for Human Pose Estimation_MatthewHsw的博客-优快云博客

 OpenPifPaf: encoder过程_MatthewHsw的博客-优快云博客_openpifpaf

论文地址:https://arxiv.org/pdf/1903.06593.pdf

GitHub地址:GitHub - vita-epfl/openpifpaf: Official implementation of "OpenPifPaf: Composite Fields for Semantic Keypoint Detection and Spatio-Temporal Association" in PyTorch.

官方APIIntroduction — OpenPifPaf Guide

浏览器在线测试:https://vita-epfl.github.io/openpifpafwebdemo/

Python openpifpafwebdemo包_程序模块 - PyPI - Python中文网

使用接口文档:Python openpifpaf包_程序模块 - PyPI - Python中文网

使用方法  :

预测单张图片:

运行效果:

调用本地服务,使用浏览器:

运行效果:

Abstract

我们提出了一种新的自下而上多人2D人体姿态估计方法,特别适合城市交通,如自动驾驶汽车和送货机器人。新的方法PifPaf使用一个Part Intensity Field(PIF)来定位身体部位,一个Part Association Field(PAF)将身体部位相互关联,形成完整的人体姿势。我们的方法在低分辨率和拥挤、杂乱和闭塞的场景中优于以前的方法,这得益于(i)我们新的复合场PAF编码细粒度信息,(ii)回归时选择了包含不确定性概念的拉普拉斯损失。我们的架构是基于完全卷积、单镜头、无盒的(box-free)设计。我们在标准COCO keypoint任务上的表现与现有的最先进的自下而上方法相同,并在运输领域的改进COCO keypoint任务上产生最先进的结果。

1.Introduction

        在流行的数据收集运动推动下,在估计人类“in the wild”姿势方面取得了巨大进展。然而,当谈到“交通领域”,如自动驾驶汽车或社交机器人时,我们仍然远远没有达到可接受的精度水平。虽然姿态估计不是最终目标,但它是人类的一种有效的低维和可解释的表示,足以及早发现自主导航系统的关键动作(例如,检测打算穿过街道的行人)。因此,人类姿态检测的效果越好,无人驾驶系统就会越安全。这直接关系到对感知人体姿态所需的最低分辨率的限制。


        在本工作中,我们解决了一个已建立的多人2D人体姿态估计问题。我们具体解决了自主导航设置中出现的挑战,如图1所示:(一)宽视角,对人类的分辨率有限,即高度为30-90像素,以及(二)行人相互遮挡的高密度人群。当然,我们的目标是高召回和精确。

        虽然在深度学习时代之前,姿态估计已经被研究过,但一个重要的基石是OpenPose[3]的工作,其次是MaskR-CNN[18]。前者是自下而上的方法(检测关节没有人检测器),后者是自顶向下的(首先使用人检测器,并在检测到的边界框中输出关节)。虽然这些方法的性能在足够高的分辨率图像上是惊人的,但它们在有限的分辨率范围内以及在人类部分相互遮挡的密集人群中表现不佳。

        在本文中,我们提出将姿态估计[3]中的场的概念扩展到标量场和向量场到复合场。我们提出了具有两个头部网络的神经网络体系结构。

对于每个身体部分或关节,一个头部网络预测置信分数,精确的位置和这个关节的大小,我们称之为Part Intensity Field(PIF),它类似于融合的零件置信图(fused part confidence map)。

另一个头部网络预测部件之间的关联,称为Part Association Field (PAF),它是一种新的复合结构。我们的编码方案具有在低分辨率激活映射上存储细粒度信息的能力。精确回归到关节位置是至关重要的,我们使用基于拉普拉斯 Laplace 的L1损失[23]而不是 vanilla L1损失[18]。我们的实验表明,在低分辨率图像上,我们的性能优于自下而上和建立的自上而下的方法,同时在高分辨率上有同样的表现。该软件是开源的,可在线使用。

 2.Related Work

       在过去的几年中,最先进的姿态估计方法是基于卷积神经网络。它们的性能优于传统的基于图形结构[12,8,9]和变形零件模型的方法。深度学习始于DeepPose,它使用一系列卷积网络进行全身姿态估计。然后,一些工作不是预测绝对人体关节位置,而是通过预测每次迭代的误差反馈(即校正)来细化姿态估计[4,17]或者使用人体姿态细化网络来利用输入和输出空间[13]之间的依赖关系。现在,在提出替代神经网络架构方面存在着军备竞赛:从卷积姿态机[42],堆叠沙漏网络[32,28],到循环网络[2],以及voting 模式,如[26]。所有这些人类姿态估计方法都可以分为自下而上和自上而下的方法。前者先估计每个身体的关节,然后将它们分组,形成一个独特的姿势。后者首先运行一个人检测器,并在检测到的包围盒中估计身体关节。

       Top-down methods

       自顶向下方法的例子有PoseNet[35]、RMPE[10]、CFN[20]、Mask R-CNN[18,15]以及最近的CPN[6]和MSRA[44]。这些方法得益于人类探测器和大量标记的bounding-box的进步。利用这些数据的能力将检测器的需求转化为优势。值得注意的是,Mask R-CNN处理关键点检测作为一个语义分割任务。在训练过程中,对于每个独立的关键点,目标被转换为包含单个前景像素的二进制掩码。一般来说,自顶向下的方法是有效的,但当人包围框重叠时,会很难。

      Bottom-up methods

      自下而上的方法包括Pishchulin与DeepCut[37]和Insafutdinov与DeeperCut[21]的开创性工作。它们解决了与整数线性程序的零件关联,该程序导致单个图像的处理时间为小时。后来的工作加快了预测时间[5]并拓宽了跟踪动物行为的应用。其他方法通过使用贪婪解码器与其他工具相结合大大减少了预测时间,Part Affinity Fields,Associate Embedding  PersonLab。最近,MultiPoseNet[24]开发了一种将检测、分割和姿态估计相结合的多任务学习体系结构。其他中间表示已经建立在图像平面上的二维姿态估计之上,包括三维姿态估计[29]、视频中的人体姿态估计[36]和密集姿态估计[16],这些都将从改进的二维姿态估计中获益。

3.Method

关节的定义

过早时期,谷歌提出直接对关键点做回归,通过多次迭代校准关键点的定位(x,y),这样定位还是不是很准确,后来的方法都是基于关键点热力图,将一个关键点Ground True坐标周围半径R内区域都设为1,之外的区域设为0,转化为分类问题。

在这里插入图片描述

在这里插入图片描述 

          我们的方法的目的是估计人在拥挤的图像中的姿势。我们处理与低分辨率和部分闭塞行人有关的挑战。自顶向下的方法,特别是当行人被其他行人遮挡时,bounding boxs 发生碰撞。以前的自下而上方法是无边框的,但仍然包含用于定位的粗特征映射。 我们的方法不受任何基于网格的关节空间定位约束,并且具有估计相互遮挡的多个姿态的能力。

        图2显示了我们的总体模型。它是一个共享的ResNet[19]基础网络,有两个头部网络:一个头部网络预测关节的置信度、精确位置和大小,我们称之为部件强度场(PIF)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值