【HRNet】《Deep High-Resolution Representation Learning for Human Pose Estimation》

在这里插入图片描述
CVPR-2019

代码:https://github.com/leoxiaobin/deep-high-resolution-net.pytorch



1 Background and Motivation

2D Human Pose Estimation 是对 human anatomical key-points 进行定位,在动作识别,人机交互,动画(animation)等方面有许多应用

最近 SOTA 的方法采用的是 CNN,遵循 high-to-low resolution 然后 raise the resolution 的流程,比如 Hourglass(对称的),dilated convolution(ResNet stage 5 中)

作者提出 HighResolution Net (HRNet),可以在网络整个流程中都 maintain high resolution representations

在这里插入图片描述

在这里插入图片描述

可以看到分辨率一直很坚挺

好处是 more accurate and spatially more precise

2 Related Work

传统方法基于

  • probabilistic graphical model
  • pictorial structure model(图结构模型)

深度学习方法

  • regressing the position of keypoints
  • estimating keypoint heatmaps
    • High-to-low and low-to-high(前后过程 Symmetric, 前面过程 heavy 后面 light, Combination with dilated convolutions)
    • Multi-scale fusion
    • Intermediate supervision(Inception)

在这里插入图片描述

3 Advantages / Contributions

提出 HRNet 主干网络来做人体关键点检测,让网络一直保持了高分辨率 representation,有利于更精确的关键点定位!

在 COCO / MPII 人体姿态估计数据集上表现惊艳

4 Method

在这里插入图片描述

1) Sequential multi-resolution sub-networks

传统的主干网络结构,随着网络的深入,空间分辨率不断的下降

在这里插入图片描述

N 11 N_{11} N11 N 22 N_{22} N22 N 33 N_{33} N33 N 44 N_{44} N44

N s r N_{sr} Nsr 表示 s s s-th stage,分辨率是原来的 1 2 r − 1 \frac{1}{2^{r-1}} 2r11

2)Parallel multi-resolution sub-networks

作者的主干网络

在这里插入图片描述

4 个并行的 sub-networks

3) Repeated multi-scale fusion

以上述并行多分辨率子网络的第三个 stage 为例(在 block 之间进行 fusion)

在这里插入图片描述

  • C s r b C_{sr}^{b} Csrb 表示 s s s-th stage, b b b-th block,分辨率是原来的 1 2 r − 1 \frac{1}{2^{r-1}} 2r11
  • ε s b \varepsilon_{s}^{b} ε
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值