【论文地址】https://arxiv.org/pdf/1612.00137.pdf
这篇Paper是交大和腾讯优图共同提出的AlphaPose多人姿态估计,从实验结果看来各项指标要比CMU OpenPose好很多。
【Abstract】
复杂环境下多人姿态识别是具有十分挑战性的。尽管当前最好的人体检测算法已经取得了很好的效果,但是仍然存在一些定位和识别错误。这些错误势必会导致单人姿态估计(Single-Person Pose Estimator,SPPE)失败,特别是那些基于人体检测的方法。因此,本文提出了一种新颖的区域的多人姿态估计框架,以方便在存在不准确的人体检测边界框的情况下进行姿态估计。本文的框架主要包含三个部分:
- Symmetric Spatial Transformer Network(SSTN)
- Parammetric Pose Non-Maximum-Suppression(NMS)
- Pose-Guided Proposals Generator (PGPG)
该算法可以处理不准确的 边界框 (bounding boxes) 和 冗余检测(redundant detections),在MPII数据集上取得了76.7 mAP。
【Introduction】
当前流行的多人姿态估计算法有两大类:一类是two-step framework,另外一类是part-based framwork。
two-step framework:通俗的讲就是两步走,第一步首先检测输入图像中所有的人体边界框,第二步对每一个人体检测框进行姿态估计。本文就是采用这种。
part-based framework:首先检测输入图像中所有的肢体节点(body parts),然后进行拼接操作,跟拼乐高一样的道理。将这些肢体节点拼接成人。CMU的OpenPose采用这种。
两种方法各有利弊,第一类算法依赖于人体检测框的