HRNet：高分辨率网络在人体姿态估计中的应用-优快云博客

本文链接：https://blog.youkuaiyun.com/Sciws/article/details/126869102

HRNet是一种针对2D人体姿态估计的深度学习模型，旨在输出高分辨率表征。与传统从高到低分辨率的网络不同，HRNet在全程保持高分辨率，并通过多尺度融合提升表征质量。网络结构并行连接高到低分辨率子网，通过反复交换信息提高精度。实验结果验证了HRNet在关键点检测任务中的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述
论文下载地址：https://arxiv.org/abs/1902.09212
官方源码地址：https://github.com/leoxiaobin/deep-high-resolution-net.pytorch
可以去看一下B站霹雳啪啦大神的讲解，部分内容也转载自霹导的博客太阳花的小绿豆
在bilibili上的视频讲解：https://www.bilibili.com/video/BV1bB4y1y7qP

摘要

这篇论文中主要研究人的姿态问题，着重于输出可靠的高分辨率表征。现有的大多数方法都是从高分辨率到低分辨率网络(high-to-low resolution network)产生的低分辨率表征中恢复高分辨率表征。相反，这篇文章提出的网络能在整个过程中都保持高分辨率的表征。

模型从高分辨率子网络(high-resolution subnetwork)作为第一阶段开始，逐步增加高分辨率到低分辨率的子网，形成更多的阶段，并将多分辨率子网并行连接。模型中进行了多次多尺度融合，使得每一个高分辨率到低分辨率的表征都从其他并行表示中反复接收信息，从而得到丰富的高分辨率表征。因此，预测的关键点热图可能更准确，在空间上也更精确。通过COCO keypoint detection 数据集和 MPII Human Pose数据集这两个基准数据集的实验结果，证明了网络的有效性。

一、前言

这篇文章是由中国科学技术大学和亚洲微软研究院在2019年共同发表的。这篇文章中的HRNet是针对2D人体姿态估计也就是关键点检测任务提出的，并且该网络主要是针对单一个体的姿态评估（即输入网络的图像中应该只有一个人体目标）。人体姿态估计在现今的应用场景也比较多，比如说人体行为动作识别，人机交互（比如人作出某种动作可以触发系统执行某些任务），动画制作（比如根据人体的关键点信息生成对应卡通人物的动作）等等。
在这里插入图片描述

对于Human Pose Estimation任务，现在基于深度学习的方法主要有两种：

基于Coordinate，regressing的方式，即直接预测每个关键点的位置坐标。
基于heatmap的方式，即针对每个关键点预测一张热力图（预测出现在每个位置上的分数）。

1）Coordinate

Coordinate即直接将关键点坐标作为最后网络需要回归的目标，这种情况下可以直接得到每个坐标点的直接位置信息。

2）Heatmap

Heatmap即将每一类坐标用一个概率图来表示，对图片中的每个像素位置都给一个概率，表示该点属于对应类别关键点的概率，比较自然的是，距离关键点位置越近的像素点的概率越接近1，距离关键点越远的像素点的概率越接近0，具体可以通过相应函数进行模拟，如二维Gaussian等，如果同一个像素位置距离不同关键点的距离大小不同，即相对于不同关键点该位置的概率不一样，这时可以取Max或Average。

对于两种Ground Truth的差别：

Coordinate网络在本质上来说，需要回归的是每个关键点的一个相对于图片的offset，而长距离offset在实际学习过程中是很难回归的，误差较大，同时在训练中的过程，提供的监督信息较少，整个网络的收敛速度较慢；
Heatmap网络直接回归出每一类关键点的概率，在一定程度上每一个点都提供了监督信息，网络能够较快的收敛，同时对每一个像素位置进行预测能够提高关键点的定位精度，在可视化方面，Heatmap也要优于Coordinate，除此之外，实践证明，Heatmap确实要远优于Coordinate，具体结构如下图所示。

当前检测效果最好的一些方法基本都是基于heatmap的，所以HRNet也是采用基于heatmap的方式。

最近的发展表明，深度卷积神经网络已经取得了最先进的性能。大多数现有的方法通过一个网络(通常由高分辨率到低分辨率的子网串联而成)传递输入，然后提高分辨率。例如，Hourglass通过对称的低到高分辨率(symmetric low-to-high process)过程恢复高分辨率。SimpleBaseline采用少量的转置卷积层来生成高分辨率的表示。此外，dilated convolutions还被用于放大高分辨率到低分辨率网络的后几层(如VGGNet或ResNet)。

本文提出了一种新的架构，即高分辨率网络(HRNet)，它能够在整个过程中维护高分辨率的表示。从高分辨率子网作为第一阶段始，逐步增加高分辨率到低分辨率的子网，形成更多的阶段，并将多分辨率子网并行连接。在整个过程中，通过在并行的多分辨率子网络上反复交换信息来进行多尺度的重复融合。通过网络输出的高分辨率表示来估计关键点。生成的网络如图所示。

与现有的广泛用于姿态估计的网络相比，HRNet有两个好处：

(i)HRNet是并行连接高分辨率到低分辨率的子网，而不是像大多数现有解决方案那样串行连接。因此，HRNet能够保持高分辨率，而不是通过一个低到高的过程恢复分辨率，因此预测的热图可能在空间上更精确。

(ii)大多数现有的融合方案都将低层和高层的表示集合起来。相反，HRNet使用重复的多尺度融合，利用相同深度和相似级别的低分辨率表示来提高高分辨率表示，反之亦然，从而使得高分辨率表示对于姿态的估计也很充分。因此，HRNet预测的热图可能更准确。

二、相关工作

大多数对关键点的热图估计的卷积神经网络由（1）stem茎子网络类似于分类网络，降低分辨率（2）一个输出与它的输入特征图相同分辨率特征图的主体结构，（3）以及一个回归器估计哪个位置的关键点被选择并转换为全分辨率的热图这三个结构组成。主体主要采用高到低、低到高的框架，可能增加多尺度融合和中间（深）监督。

2.1 High-to-low and low-to-high.

high-to-low process的目标是生成低分辨率和高分辨率层次的表征，low-to-high process的目标是生成高分辨率的表征。这两个过程可能会重复多次，以提高性能。

具有代表性的网络设计模式如下图：
在这里插入图片描述

2.2 多尺度融合

最直接的方法是将多分辨率图像分别送入多个网络，并聚合输出响应特征图。如上图，Hourglass及其扩展通过跳过连接，将high-to-low process中的低级别特征逐步组合为low-to-high process中的相同分辨率的高级别特性。在cascaded pyramid network中，globalnet将high-to-low process中的低到高级别特征逐步组合到low-to-high process中，refinenet将通过卷积处理的低到高特征进行组合。我们的方法重复多尺度融合，部分灵感来自深度融合及其扩展。

2.3 中间监督

图像分类早期开发的中间监督或深度监督，也用于帮助深度网络训练和提高热图估计质量。Hourglass和卷积人体姿态方法将中间热图作为剩余子网络的输入或输入的一部分进行处理。

2.4 本文方法

HRNet并行地连接高到低的子网。它保持了高分辨率的表示，通过整个过程的空间精确热图估计。它通过重复融合高到低子网产生的高分辨率表示来生成可靠的高分辨率表示。不同于大多数现有的工作，它们需要一个独立的从低到高的上采样过程，并聚合低级和高级表示。该方法在不使用中间热图监控的情况下，具有较好的关键点