[论文阅读]HRNetV1,HRNetV2,HRNetV2p

本文介绍了HRNet网络,包括HRNetV1、HRNetV2和HRNetV2p。人体姿势估计旨在检测图像中关键点位置,典型姿态估计网络有特定特点。HRNet网络优势在于保持高分辨率特征表示和多尺度融合。它在人体姿态检测、语义分割、人脸关键点检测、图像分类和目标检测等领域表现出色,用更少参数和计算量实现高性能。

1.Deep High-Resolution Representation Learning for Human Pose Estimation(HRNetV1)

2.High-Resolution Representations for Labeling Pixels and Regions(HRNetV2,HRNetV2p)

1.Introduction

人体姿势估计(又称关键点检测)旨在从尺寸为W*H*3的图像I中检测K个关键点或部位(例如,肘部,手腕等)的位置。最先进的方法将此问题转换为估计 K个大小为W*H的热图{H1,H2,…,HK},其中每个热图Hk表示第k个关键点的位置置信度。

典型的姿态估计网络

Hourglass:对称性编码解码网络

 Cascaded pyramid networks:refinenet对不同尺度的特征图卷积处理后进行融合

SimpleBaseline:解码器中使用转置卷积恢复分辨率

 Combination with dilated convolutions:在编码器中使用空洞卷积增大感受野

 这些网络的特点:

两个过程:High-to-Low过程(产生低分辨率高级特征表示)和Low-to-High(恢复高分辨率)过程,并且这两个过程是串行的。

有的网络会将高级特征图和低级特征图做特征融合。

2.network architecture

优势:1.在整个过程中保持高分辨率的特征表示,逐步增加High-to-Low的子网,并将多分辨率的子网并行连接。

2.在并行的多分辨率子网之间反复交换信息,进行多尺度融合,高分辨率特征与低分辨率特征之间相互增强。

网络分为4个stage,每个stage比上一个stage多一条分支,新增分支是对上一个stage所有特征图进行strided convolution融合后的结果,分辨率大小是上一个分支分辨率大小的一半,通道数翻倍,每个stage由mutil-resolution block组成。

 每一个mutil-resolution block又分为两部分:

(a) multi-resolution group convolution:若干条并行的分支,每条分支上包含4个残差单元

(b) multi-resolution convolution(exchange unit):进行多尺度特征融合

第3个stage的exchange unit示意图:

 高、中、低三个不同分辨率大小的特征图相互融合:对高分辨率图使用strided convolution,对低分辨率图像进行上采样和1*1的卷积,因为融合策略是进行元素加,需要将不同分辨率特征图的通道数调整同一数量。

3.人体姿态检测

HRNetV1:只输出高分辨率特征图

 实验结果:

实验:COCO Keypoint Detection

验证集实验结果

 和当前表现最好的SimpleBaseline比较,HRNet-W32(通道数:32,64,128,256)和HRNet-W48(通道数:48,96,192,384)使用更少的参数,更小的计算量实现了更高的性能。

4.语义分割,人脸关键点检测

HRNetV2:利用所有分辨率的特征图,对低分辨率特征图上采样后与高分辨率特征图拼接,经过1*1卷积,softmax层生成分割预测图

实验:Cityscapes Segmentation

验证集:

 HRNetV2-W40在比UNet++,DeepLabv3参数量更少时,实现更高的mIOU

HRNetV2-W48在和PSPNet参数量相同时,实现更高的mIOU

 测试集:

 实验:PASCAL context Segmentation

实验结果

 在不包含背景标签和包含背景标签评价方法下,HRNetV2-W48都表现出更好的性能。

5.图像分类

HRNet-Wx-C:4张不同分辨率特征图经过bottleneck层,通道数翻倍后,从高分辨率图依次经过strided convolution与低分辨率图进行元素加操作,在经过1*1卷积使通道翻倍(1024->2048),全局平均池化后送入分类器。

 实验:ImageNet Classification

与Resnet对比

 HRNets在与Resnets参数量计算量相似情况下,结果与ResNets相当,并且略好于ResNets。

6.目标检测

HRNetV2p:将HRNetV2拼接后的特征图经过不同尺度的平均池化操作产生不同级别的特征表示,经过1*1的卷积后形成特征金字塔

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值