昨天在arxiv上发现的一篇非常有意思的论文,特来记录一下,惯例发链接
自己实现的github
为什么文章叫Single-Stage,首先,针对多人pose这方面,主流的方法分为两类:
- Top-Down solution。先用一个detector检测出来图像上的所有行人,然后针对每一个检测的出来的human box,做单人pose预测,总共需要2步
- Bottom-Up solution。先用一个cnn检测出来图像上所有人的所有关键点,再通过一个聚类算法(或者其它方法)对这些点进行区分,将同一个人的点划分到一起,最后得到所有人的关键点,总共需要2步
以上的方法都是需要经过两个步骤才可以得到最终的multi-person pose,那么有没有一种方法可以一步到位?这就是论文提出的方法,一步到位,一次就可以得到多个人的pose点,所以叫做Single-Stage,具体看下图:

思路和之前anchor-free的Objects as Points很像,具体如下:
-
定义一个中心点,这个中心点就是这个人的box的中心位置,论文里把它叫作root joint
-
root joint回归出来模型需要检测的某一个人的所有pose点的offset(

本文介绍了Single-Stage Multi-Person Pose Machines论文,该方法提出了一种一步到位的多人姿态检测方案,无需传统Top-Down或Bottom-Up的两步过程。通过对关键点进行分层和回归相对offset,解决了长距离偏移的难题。文中还讨论了标签格式、损失函数计算及其在实际应用中的挑战。
最低0.47元/天 解锁文章
954

被折叠的 条评论
为什么被折叠?



