Paper Reading:Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

最新推荐文章于 2022-06-10 10:22:40 发布

原创最新推荐文章于 2022-06-10 10:22:40 发布 · 521 阅读

0 ·

CC 4.0 BY-SA版权

paper reading 专栏收录该内容

2 篇文章

订阅专栏

本文介绍了一种实时多人2D姿态估计算法，该算法通过卷积网络提取特征，利用Part Affinity Fields关联不同人体关节点，并通过二分匹配完成骨架重建。其核心贡献在于提出了一种有效的人体姿态估计方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

CVPR 2017
Paper：Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
Author: Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh
Association: The Robotics Institute, Carnegie Mellon University
Code：https://github.com/CMU-Perceptual-Computing-Lab/openpose
Video: youku

Overall pipeline
这里写图片描述
整体算法流程如上，输入一幅图像，分成两路用卷积网络提取不同的特征，得到Part Confidence Maps和Part Affinity Fields，得到这两个信息后再使用二分匹配（Bipartite Matching）将同一个人的关节点连接起来，最终合并成一幅完整的骨架。

Method
这里写图片描述
a set of feature maps F ，confidence maps S，Part Affinity Fields L
F是前10层学习到的图像特征，10层之后，网络分成两路，每路在loss之前有5层，在每个stage之后，S及L都和stage1中的F再汇合，作为下个stage的输入

Confidence Maps for Part Detection
图像区域中每个点都有一个confidence值，构成confidence map。每一个body part （j）算一个confidence map。所以有多少个part（关节），就有多少个相对应part的confidence map。
这里写图片描述
假设k个人，图像中每个人都有预测位置的confidence map，将k个人的confidence map的集合合成为一个confidence map时，取该点各个人的confidence的最大值。文章里说这里用max而不用average是为了：即使多个peak点离得很近，精度仍然不受影响。
这里写图片描述

Part Affinity Fields for Part Association
同时使用了location和orientation信息
这里写图片描述
每一种limb（肢）在关联的两个body part之间都有一个对应的affinity field ，其中的每一个pixel都有一个2D vector描述方向。