极简笔记 Cascaded Pyramid Network for Multi-Person Pose Estimation

本文介绍Cascaded Pyramid Network,这是一种用于多人关键点估计的方法,结合了自上而下的策略,首先通过mask-rcnn进行人体检测,然后通过GlobalNet和RefineNet进行关键点定位。GlobalNet采用类似FPN的结构,RefineNet则利用全局信息进一步细化关键点预测。该网络在COCO Challenge 2017中赢得人体姿态估计冠军,并在ResNet-Inception骨架网络下取得优秀效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Cascaded Pyramid Network for Multi-Person Pose Estimation

论文地址:https://arxiv.org/abs/1711.07319
旷视COCO Challenge 2017人体姿态估计冠军论文

文章核心提出一种使用自上而下的多人关键点估计方法。先利用mask-rcnn的detection结构检测人体(FPN+ROIAlign),之后利用GlobalNet+RefineNet结构对单人目标回归人体关键点。
这里写图片描述

上图为网络架构,GlobalNet本质是一个类似FPN的架构,但是在上采样部分中,每个element-wise add之前作者多加了一个1x1卷积。之后算不同尺度feature map和关键点响应图的L2 loss(和FPN一样,算P2-P5层的loss)

接下来是RefineNet,把前面GlobalNet骨架网络的P2-P5层拿出来(论文这部分写的有歧义,说是C2-C5,但是看了源码后发现是类似FPN的P2-P5),经过不同次数的bottleneck之后concatenate。前面concatenate之后再经过一个bottleneck回归到关键点响应图。但是与前面的L2 loss不同,这里计算loss使用online hard mining方法,训练时只动态回传loss较大的几个channel。可以理解成前面的loss算真实可见的关键点响应,后面的loss利用全局信息回归遮挡的关键点响应。

该网络以ResNet50作为骨架网络在8卡Titan上要训练1.5天。利用ResNet-Inception作为骨架网络,在COCO test-dev数据集上取得了极好的效果,远超CMU-Pose(也就是OpenPose)和Mask-RCNN。也在COCO Challenge 2017人体姿态估计项目上获得冠军。
COCO Challenge2017
COCO test-dev
论文源码:https://github.com/chenyilun95/tf-cpn

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值