Deep High-Resolution Representation Learning for Human Pose Estimation

本文介绍了一种新的深度高分辨率网络结构,该结构通过维持高分辨率特征图并进行多分辨率特征融合,提高了姿态估计的精度。网络在保持高分辨率的同时,通过下采样和上采样的卷积操作,实现了不同分辨率特征图的有效融合。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

基本思想:

作者观察到,现有姿态估计算法中往往网络会有先降低分辨率再恢复高分辨率的过程,比如下面的几种典型网络。

为便于表达,在下面的a、b、c、d四幅图中,同一水平线上的特征图为相同分辨率,越向下分辨率越小,在最终的高分辨率特征图heatmap中计算姿态估计的关键点。

下图描述了作者的思想:

在上图中网络向右侧方向,深度不断加深,网络向下方向,特征图被下采样分辨率越小,相同深度高分辨率和低分辨率特征图在中间有互相融合的过程。

作者描述这种结构为不同分辨率子网络并行前进。

关键点的heatmap是在最后的高分辨率特征图上计算的。

网络中不同分辨率子网络特征图融合过程如下:

主要是使用strided 3*3的卷积来下采样和up sample 1*1卷积上采样。

这么做有什么好处?

作者认为:

1)一直维护了高分辨率特征图,不需要恢复分辨率。

2)多次重复融合特征的多分辨率表示。

 

不仅仅是姿态估计

 

作者在官网指出,深度高分辨率网络不仅对姿态估计有效,也可以应用到计算机视觉的其他任务,诸如语义分割、人脸对齐、目标检测、图像分类中,期待更多具有说服力的结果公布。

论文地址:

http://cn.arxiv.org/pdf/1902.09212.pdf

项目主页:

https://jingdongwang2017.github.io/Projects/HRNet/PoseEstimation.html

代码地址:

https://github.com/leoxiaobin/deep-high-resolution-net.pytorch

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值