HRNet-人体姿势估计-论文笔记

本文介绍HRNet在人体姿态估计领域的创新方法。HRNet通过并行连接高低分辨率子网络,保持高分辨率信息,提高空间定位精度。采用multi-scale融合策略,提升热图预测准确性。实验结果显示,HRNet在多项指标上超越传统网络。

1.简介

本文依据《Deep High-Resolution Representation Learning for Human Pose Estimation》翻译总结。HRNet指High-Resolution Net。

人的姿势(肘、手腕等)预测如下图。
在这里插入图片描述

对于单人姿势估计,神经网络有两种主要的方法,一种是回归keypoints的位置,一种是估计关键点热图。其中关键点热的主要部分,一般采用hign-to-low 和low-to-hign的框架。HRNet改进了hign-to-low 和low-to-hign的框架。

下图是4种hign-to-low 和low-to-hign的框架,a图是hourglass,b图是级联金字塔网络,c图是simplebaseline,d图是扩展(dilated)卷积的结合。Hourglass通过对称的低到高分辨率(symmetric low-to-high process)过程恢复高分辨率。SimpleBaseline采用少量的转置卷积层(transposed convolution layers)来生成高分辨率的表示。此外,dilated convolutions还被用于放大高分辨率到低分辨率网络(high-to-low resolution network)的后几层(如VGGNet或ResNet)。

在这里插入图片描述

本文HRNet只考虑单个人的姿势的估计,其是多人姿势估计、video姿势估计和追踪的基础。

HRNet有两个特点,(1)并行的连接hign-to-low分辨率子网络,而不是串行的,所以有能力保存高的分辨率,预测的热图在空间上更加准确;(2)采用multi-scale 融合,而不是简单的聚合low-level和high-level表现,这样也使我们预测的热图潜在上更加准确。

2 HRnet结构

如下图所示,(1)hign-to-low分辨率子网络并行,(2)以及包含multi-scale 融合。在实验中,实际采用了4个并行子网络,8个mutli-scale融合(8个交换单元)。网络架构借鉴了ResNet,设计每个阶段的网络深度与对于每种分辨率的channel数量。
在这里插入图片描述

3 方法

图片:image I,WH3;
K个keypoints;转换成评估K个热图(每个大小W*H),{H1,H2….HK}中每个元素Hk代表第k个keypoint的定位自信度。

N_sr代表第s阶段的子网络,其中k是分辨率index。该子网络的分辨率等于第一个子网络分辨率的1/(2^r-1)。

3.1 网络表示

串行的Hign-to-low网络表示如下:
在这里插入图片描述

4个并行的子网络可以如下表示:
在这里插入图片描述

3.2 重复的multi-scale融合

我们引入横跨并行子网络的交换单元,以致于每一个子网络重复的收到其他平行子网络的信息。

下面的例子显示了将第3阶段分成3个交换block,每个交换block由3个并行的卷积单元C和一个交换单元构成。
在这里插入图片描述

其中C_sr^b表示卷积单元,其表示在第s阶段,第b个block,第r分辨率。ε表示交换单元。

交换单元图示如下,
在这里插入图片描述

在这里插入图片描述

3.3 热图估计

我们对最后一个交换单元的高分辨率输出进行简单热图回归。损失函数采用均方误差,比较预测的热图和groundtruth 热图。groundtruth 热图是采用1个像素标准差的2D高斯在每个关键点的grouptruth定位中心生成。

4 ## 实验

采用OKS(object keypoint similarity)、the PCKh(head-normalized probability of correct keypoint) score、multi-object tracking accuracy (MOTA)等进行评估。

实验结果可以看到好于很多其他网络。

在这里插入图片描述

5. 其他

lassification networks have been dominant in visual recognition, from image-level classification to region-level classification (object detection) and pixel-level classification (semantic segmentation, human pose estimation, and facial landmark detection).

The HRNet turns out to be a strong repalcement of classification networks (e.g., ResNets, VGGNets) for visual recognition. We believe that the HRNet will become the new standard backbone.

HRNet 可以应用于各种图形处理领域。
在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值