
CVPR-2019
代码:https://github.com/leoxiaobin/deep-high-resolution-net.pytorch
文章目录
1 Background and Motivation
2D Human Pose Estimation 是对 human anatomical key-points 进行定位,在动作识别,人机交互,动画(animation)等方面有许多应用
最近 SOTA 的方法采用的是 CNN,遵循 high-to-low resolution 然后 raise the resolution 的流程,比如 Hourglass(对称的),dilated convolution(ResNet stage 5 中)
作者提出 HighResolution Net (HRNet),可以在网络整个流程中都 maintain high resolution representations


可以看到分辨率一直很坚挺
好处是 more accurate and spatially more precise
2 Related Work
传统方法基于
- probabilistic graphical model
- pictorial structure model(图结构模型)
深度学习方法
- regressing the position of keypoints
- estimating keypoint heatmaps
- High-to-low and low-to-high(前后过程 Symmetric, 前面过程 heavy 后面 light, Combination with dilated convolutions)
- Multi-scale fusion
- Intermediate supervision(Inception)

3 Advantages / Contributions
提出 HRNet 主干网络来做人体关键点检测,让网络一直保持了高分辨率 representation,有利于更精确的关键点定位!
在 COCO / MPII 人体姿态估计数据集上表现惊艳
4 Method

1) Sequential multi-resolution sub-networks
传统的主干网络结构,随着网络的深入,空间分辨率不断的下降

N 11 N_{11} N11 → N 22 N_{22} N22→ N 33 N_{33} N33→ N 44 N_{44} N44
N s r N_{sr} Nsr 表示 s s s-th stage,分辨率是原来的 1 2 r − 1 \frac{1}{2^{r-1}} 2r−11
2)Parallel multi-resolution sub-networks
作者的主干网络

4 个并行的 sub-networks
3) Repeated multi-scale fusion
以上述并行多分辨率子网络的第三个 stage 为例(在 block 之间进行 fusion)

- C s r b C_{sr}^{b} Csrb 表示 s s s-th stage, b b b-th block,分辨率是原来的 1 2 r − 1 \frac{1}{2^{r-1}} 2r−11
- ε s b \varepsilon_{s}^{b} ε

最低0.47元/天 解锁文章
2186

被折叠的 条评论
为什么被折叠?



