《Cascaded Pyramid Network for Multi-Person Pose Estimation》--旷世2017COCO keypoints冠军论文解读

最新推荐文章于 2025-09-20 03:34:41 发布

原创最新推荐文章于 2025-09-20 03:34:41 发布 · 8.8k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#人体姿态估计 #CNN #cascade

本文介绍了一种名为CPN的串接金字塔网络模型，该模型在2017年COCO关键点挑战赛中获得冠军。CPN由GlobalNet和RefineNet组成，能够兼顾局部和全局信息，有效解决多人姿态估计中的遮挡问题。

简介

《Cascaded Pyramid Network for Multi-Person Pose Estimation》，这是Face++旷世科技2017年取得COCO Keypoints Challenge冠军的文章，主要目的是解决 in the wild 场景下多人的姿态估计，即关键点回归。
这里对这篇文章做一个简单的总结，如有理解不对的地方，欢迎指正！！
文章的主要贡献是：重点内容
1 提出了一种金字塔型的串接模型，即CPN（cascaded pyramid network），这个模型能够同时兼顾人体关节点的局部信息以及全局信息，结果取得了不错的效果;

2 使用了在线难例挖掘（online hard keypoints mining）的技术，这对于人体姿态估计任务中一些存在遮挡的“hard”的关键点的预测有所帮助；

3 测试阶段考量了soft-NMS和传统的hard-NMS（非极大值抑制）在human detection阶段产生的影响，结论是soft-NMS对于最后的结果是有所帮助的。

方法

pipeline

首先，整体的方法仍然是一个传统的top-down的pipeline，即现在图片中检测到人体，再做一个单人的human pose estimation。

motivation

下面这张图阐述了作者的网络设计思路，即一些比较容易识别出来的人体关键点，直接利用一个CNN模型就可以回归得到；而对于一些遮挡比较严重的关节点，则需要增大局部区域感受野以及结合上下文信息才能够进一步refine得到。

motivation

网络结构

Figure1给出的就是作者提出的CPN模型网络结构。
可以看到，整个模型由两部分构成，GlobalNet和RefineNet。
GlobalNet的作用就是简单的前向CNN组成的回归模型，目的是回归得到一些易于识别的人体关键点位置，这里作者是使用的ResNet的网络架构回归heatmap。
RefineNet的目的则是利用GlobalNet产生的金字塔模型的特征图，融合多个感受野信息，最后concatenate所有的同一尺寸特征图进一步回归一些有歧义的关键点位置。注意，这里作者使用的是concatenate的策略，而并不是像Stacked Hourglass Networks那样的简单的upsampling。

CPN网路结构

实验

针对上面所提到的三个贡献，作者通过下面几个实验进行了证明：
首先针对human detection阶段NMS的策略，结论毫无疑问的是Soft-NMS（关于soft-NMS，这是目标检测领域提出来的一个策略，具体可以参考原文）更好，下面的表是几个不同阈值的NMS和Soft-NMS的结果比较。

NMS

对于在线难例挖掘策略的使用，主要体现在RefineNet究竟需要对多少个关键点进行Refine，根据COCO keypoints人体标注的关键点数量（17个）作者做了下面的一个实验：

在线难例挖掘1

可以看到，对于“Hard”的关键点的定义，在M=8的时候是比较好的，这可以理解为当M增大时一些之前GlobalNet已经预测得到非常好的关键点反而被RefineNet加上了人工干扰。

接下来，对于两个子网络的训练，是否使用在线难例挖掘，作者也做了实验：

在线难例挖掘2

可以看到当RefineNet加上在线难例挖掘之后取得的效果是最好的，这也证明了这个措施的有效性，至于为什么最后两行GlobalNet加上在线难例挖掘之后结果反而下降了，大概是这个阶段的网络效果受限于感受野尺寸，即预测不准的点loss加大惩罚之后还是预测不准，也就没有什么用处了。

最后，当然就是这个方法在COCO关键点挑战赛上面的表现了：

72.1的准确率，比第二名高了0.7个点。

总的说来，这篇文章的设计思路是比较巧妙的，用人体关键点中存在的一些遮挡严重的情况作为切入点，设计了拥有两个子网络构成的CPN模型，这对于其他的一些CV任务也有一定的参考意义。

2 条评论

BillyPan 2020.03.13
您好，请问这个网络是没有先识检测人体的网络的吧？是直接从整张图片获取信息的吧？

AI无昵称 2018.01.13
您好，想向您请教！请问文章里在test阶段对heatmap处理时，将最高响应往第二高响应偏移了1/4，这是什么意思？内容见4.1节 a quarter offset in the direction from the highest response to the second highest response is used to obtain the final location of the keypoints
- xungeer29回复AI无昵称 2019.03.17
  [reply]xiaojiajia007[/reply] 请问现在知道为什么要将最高响应往第二高响应偏移1/4了吗？如果我想得到次优的关键点，是第二响应往第三响应偏1/4，还是第三响应往第四响应偏1/4？
- zhangboshen回复AI无昵称 2018.01.22
  [reply]xiaojiajia007[/reply] 我的感觉是一幅heatmap图片的响应值可能有多个较大的峰值，这样做的话相当于滤波了，而不是简单的取响应最大的location的坐标。
- AI无昵称回复AI无昵称 2018.01.21
  [reply]xiaojiajia007[/reply] 是响应最高处往第二高处进行offset吗？还是往最相邻的第二高的位置进行便宜？感觉不是很有道理啊
- zhangboshen回复AI无昵称 2018.01.18
  [reply]xiaojiajia007[/reply] 这个做法是按照《stacked hourglass networks》那篇文章来的，我其实也不太懂，我的猜测是最后根据输出的heatmap来得到关节点的location的时候，采取的一种策略，就是说不取响应最大的点，而是响应最大的点加上一个四分之一的offset作为最后的输出。