Paperreading 之二  多人人体姿态估计COCO2017冠军—CPN

 

  1. 前言

人体姿态估计是MSCOCO数据集(http://cocodataset.org/)上面的一项比赛,人体关键点检测,目前主流的做法都是深度学习来做。可以分为两个大的方向:

(1)top-down方向:自顶向下的方法,目前的主流,像cpn,hourglass,cpm,alpha pose等都是top-down。主要分为两个阶段,行人检测和单人姿态估计,行人检测对后面的单人姿态估计影响很大,通常会使用性能较好的检测器(比如faster rcnn,fpn之类的),然后把检测到的行人框(bbox)作为单人姿态估计的输入,所以把行人准确无误的检测出来非常重要。

(2)bottom-up方向:自底向上方法,典型就是COCO2016年人体关键点检测冠军open pose。主要分为两个阶段:检测出输入图片中左右的人体关键点,根据某种策略对关键点之间进行连线,这时候就容易出现把a的关键点和b的关键点连接起来,open pose里面的策略是提出PAFs,让网络学习人体关节的矢量场信息,相当于得到了一个方向信息,结合前面的坐标点,可以确定连线。

 

2.构建网络

CPN网络整体结构非常的直观明了,包含两个部分GlobalNet和RefineNet,顾名思义,GlobalNet是一个全局的初步的检测,相当于一个粗检测,会得到一个不错的

### 人体姿态估计的基准模型和方法 #### 卷积神经网络与图形模型联合训练 一种有效的人体姿态估计方法涉及卷积神经网络(CNN)与图形模型的联合训练。这种方法不仅利用CNN强大的表征学习能力来提取图像特征,还结合了图形模型处理结构化预测的优势,从而提高了对体关节位置预测的准确性[^1]。 #### 使用卷积网络学习特征 另一种重要的基准模型是基于卷积网络的学习框架,在该框架下开发了一种新颖的方法用于自动获取适合于人体姿态估计任务的有效特征表示。此方法强调端到端的训练过程,使得整个系统可以直接从原始像素数据中学习最优特征而无需工设计复杂的预处理步骤或手工挑选特征[^2]。 #### 高分辨率特征图生成技术 对于提高人体姿态估计性能至关重要的另一个方面是如何有效地生成高质量的高分辨率特征图。不同的架构采用了种策略实现这一目标,例如SimplePose通过反卷积操作增加特征图尺寸;Hourglass及CPN则偏好上采样加跳跃连接的方式。尽管具体实施方案有所差异,但共同目的是为了更好地捕捉细节信息并保持空间精度[^4]。 ```python import torch.nn as nn class SimpleBaseline(nn.Module): def __init__(self, num_joints=17): super(SimpleBaseline, self).__init__() # 定义基础ResNet50作为backbone backbone = torchvision.models.resnet50(pretrained=True) # 移除最后几层以适应新任务需求 modules = list(backbone.children())[:-2] self.backbone = nn.Sequential(*modules) # 添加额外层进行回归预测 self.final_layer = nn.Conv2d( in_channels=2048, out_channels=num_joints, kernel_size=1, stride=1, padding=0 ) def forward(self, x): x = self.backbone(x) x = self.final_layer(x) return x ```
评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值