《HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation》(CVPR2020)

Paper下载

Github code

全文翻译

本文转载:https://blog.youkuaiyun.com/murdock_c/article/details/104851289
https://zhuanlan.zhihu.com/p/195278515
(侵权联系删除)


论文总体工作情况

HigherHRNet是在HRNet和Simple baseline工作的基础上形成的。HRNet因其可以一直保持一个高分辨率网络来提取feature,提取的feature效果很好,从而可以用在pose estimation,object detection,semantic segmentation(语义分割)等工作上。 HigherHRNet则更进一步,因为之前simple baseline的工作证明了,通过反卷积得到更高分辨率的featuremap有助于pose estimation效果的提高,因此,HigherHRNet就是在HRNet原来输出的featuremap基础上,额外加入了一个反卷积,使得模型的输出size进一步提高,pose estimation效果更好。

HRNet论文解读
HRNet视频
Simple baseline论文解读
From R-CNN to Mask R-CNN

Abstract

  • Bottom-up的人体姿势估计方法由于尺度变化的挑战,在预测小人物的正确姿势方面有困难。
  • 本文提出了一种新的Bottom-up的人体姿态估计方法HigherHRNet,该方法利用高分辨率特征金字塔学习尺度感知表示。
  • 该方法在训练方面具有多分辨率监督,在推理方面具有多分辨率聚合功能,能够较好地解决自底向上多人姿态估计中的尺度变化挑战,并能更精确地定位关键点,特别是对小人物。
  • HigherHRNet中的特征金字塔由HRNet的特征映射输出和通过转置卷积的上采样高分辨率输出组成。

表现情况:

  • 在COCO test-dev中,对于中等大小的人,HigherHRNet比以往最好的自底向上方法有2.5%的AP的提升,显示了它在处理尺度变化方面的有效性。
  • HigherHRNet在COCO test-dev(70.5%AP)上达到了SOTA,无需使用固件或其他后处理技术,超越了所有现有的自底向上方法
  • HigherHRNet在CrowdPose test(67.6%AP)测试中甚至超过了所有自顶向下的方法,具有很好的鲁棒性。

FPN(feature pyramid networks)特征金字塔算法讲解

1.Introduction

  • 由于自上而下的方法可以通过裁剪和调整检测到的人员边界框的大小,将所有人员规范化为大致相同的比例,因此它们通常对人员的比例变化不太敏感。因此,各种多人姿态估计基准的SOTA大多是通过自顶向下的方法来实现的。然而,由于这种方法依赖于单独的人检测器,并且需要单独估计每个人的姿势,因此它们通常是计算密集型的,并且不是真正的端到端系统。
  • Bottom-up的策略有效地提高了自底向上方法的速度,提高了姿态估计的实时性。但是,由于自下而上的方法需要处理尺度变化,Bottom-up和top-down的方法在性能上仍然存在很大的差距,特别是对于small scale的人来说

预测小尺寸的人的关键点主要有两个挑战

  • 一种是处理尺度变化,即在不损害大尺寸的人表现的情况下提高小尺寸的人的表现。
  • 另一个是生成高质量的高分辨率热图,用于精确定位小尺寸人的的关键点。

以往的自下而上方法主要集中在对关键点进行分组,简单地使用一个分辨率的特征图,即输入图像分辨率的四分之一来预测热图关键点。 这些方法忽视了尺度变化的挑战,在推理过程中依赖于图像金字塔。如图1 (a)所示。

PersonLab 通过增加输入分辨率生成高分辨率热图,如图1(b)所示。虽然随着输入分辨率的增加,small person的表现一直在增加,但当输入分辨率太大时,large person的表现开始下降。

在这里插入图片描述

为了解决这些挑战,必须以自然和简单的方式生成空间上更精确和更具scale-aware的热图,用于自下而上的关键点预测,而无需耗费大量的计算成本。

本文提出了一种==尺度感知高分辨率网络(HigherHRNet)==来解决这些问题

  1. HigheHRnet通过一个新的高分辨率特征金字塔模块生成高分辨率热图。
  2. 不同于传统的特征金字塔,它从1/32分辨率开始,使用带横向连接的双线性上采样将特征图分辨率逐渐提高到1/4,高分辨率特征金字塔直接从backbone的1/4分辨率开始,通过反卷积生成更高分辨率的特征图。如图1(c)所示。在HRNet[38,40]的1/4分辨率路径上构建高分辨率特征金字塔,使其更加高效。
  3. 为了使HigherHRNet能够处理尺度变化,我们进一步提出了一种多分辨率监督策略,将不同分辨率的训练目标分配到相应的特征金字塔层
  4. 最后,我们在推理过程中引入了一种简单的多分辨率热图聚合策略来生成尺度感知(scale-aware)的高分辨率热图。

作者贡献

  1. 我们试图解决尺度变化的挑战,这在以前自下而上的多人姿态估计中是很少研究的;
  2. 我们提出了一个HigherHRNet,它在训练阶段产生带有多分辨率监督的高分辨率特征金字塔,在推理阶段产生多分辨率热图聚合来预测scale-aware的高分辨率热图,这对small persons 非常有用。
  3. 我们在COCO数据集上展示了HigherHRNet的有效性。 我们的模型优于所有其他自下而上的方法。 我们特别注意到,medium person中效果很大。
  4. 在CrowdPose 数据集上,我们实现了最优结果, 表明了自下而上的方法比自上而下的方法更适合拥挤的场景。

2.Related works

Top-down methonds:

自顶向下的方法检测一个人包围框内的单个人的关键点。person bounding boxes 通常由目标检测Mask R-CNN直接生成, 在更快的R-CNN上添加一个关键点检测分支,并在ROIPooling之后重用特征。 进一步将自上而下的方法分为两个步骤,并使用单独的模型进行人的检测和姿态估计。

Bottom-up methods:
自下而上的方法检测图像中所有人的身体关节,然后将他们分组。 OpenPose使用两个分支,一个分支用于热图预测,一个分支用于分组。 OpenPose使用了一种名为part affinity field的分组方法,它学习连接两个关键点的二维向量场。

Feature pyramid:
金字塔表示在最近的目标检测和分割框架中被广泛采用来处理尺度变化。SSD和MSCNN 在网络的多层中预测对象,而不合并特征。 特征金字塔网络用自顶向下的路径扩展骨干模型,逐渐将特征分辨率从1/32恢复到1/4, 使用双线性上采样和横向连接。共同的动机是让不同金字塔级别的特征来预测不同尺度的实例。然而, 这种金字塔表示在自下而上的多人姿态估计中很少被探索。 在本工作中,我们设计了一个高分辨率的特征金字塔,将金字塔扩展到不同的方向, 从1/4分辨率特征开始,生成具有更高分辨率的特征金字塔。

High resolution feature maps:
生成高分辨率特征图的方法主要有4种。

  1. 编码器-解码器,在编码器中获取上下文信息,并在解码器中恢复高分辨率特征。解码器通常包含具有相同分辨率的编码器特征的跳过连接的双线性上采样操作序列。
  2. .空洞卷积,用于移除几个步长卷积/最大池化以保持特征图分辨率。 空洞卷积可以防止丢失空间信息,但引入了更多的计算成本。
  3. 转置卷积,反卷积, 在网络末端使用,以有效地提高特征图分辨率。 SimpleBaseLine证明了反卷积可以为热图预测生成高质量的特征图。
  4. 最近,提出了一个高分辨率网络(HRNet),在整个网络中保持高分辨率。 HRNet由多个不同分辨率的分支组成。
    低分辨率分支捕获上下文信息,高分辨率分支保留空间信息。HRNet 分支之间的多尺度融合, 可以生成具有丰富语义的高分辨率特征图。

论文采用HRNet作为我们的基本网络来生成高质量的特征图。 我们增加了一个反卷积模块来生成更高分辨率的特征图来预测热图。 得到的模型被命名为Scale-Aware High-Resolution NetWork(HigherHRNet)。由于HRNet和反卷积是有效的, HigherHRNet是生成高分辨率特征图用于热图预测的有效模型。

3.Higher-Resolution Network

在这一部分中,我们介绍了我们提出的HigherHRNet。 图2说明了我们方法的总体架构。 我们将首先简要概述所提出的HigherHRNet,然后详细描述其组件。
在这里插入图片描述

3.1 HigherHRNet

HRNet
HigherHRNet 使用 HRNet (如图 2 ) 作为 backbone。 在第一阶段,HRNet从高分辨率分支开始, 在接下来的每一个阶段, 一个新的分支被添加到当前分支中,与当前分支中最低分辨率的1/2个并行。由于网络有更多的阶段,它将有更多的并行分支,不同的决议和以前阶段的决议都保存在以后的阶段。一个包含3个并行分支的示例网络结构如图2所示。
我们使用类似于HRNet的方式实例化backbone, 网络从一个由两个3×3卷积开始,将分辨率降低到1/4。 第一阶段包含4个残差(residual units)单元,其中每个单元由宽度(通道数)64的瓶颈(bottleneck)形成。 然后是一个3×3卷积,将特征图的宽度减小到C。 第二、第三、第四阶段分别包含1、4和3个多分辨率块。 四个分辨率的卷积宽度分别为C、2C、4C和8C。 多分辨率组卷积中的每个分支有4个残差单元,每个单元在每个分辨率中有两个3×3个卷积。 我们对两个不同容量的网络进行了实验,分别将C设置为32和48。
HR Net[38,40]最初是为自顶向下的姿态估计而设计的。 在本工作中,我们采用HRNet自下而上的方法,通过添加1×1卷积来预测类似于的热图和标签图, 我们只使用最高分辨率(输入图像的1/4)特征图进行预测

HigeherHRNet

  • 热图的分辨率对于预测small
    persons的关键点至关重要。大多数现有的人体姿态估计方法都是通过准备ground-truth来预测高斯平滑的热图,并将一个未归一化的高斯核应用于每个关键点位置。
    添加这个高斯核有助于训练网络,因为CNNs倾向于输出空间平滑的响应作为卷积操作的一种性质。
    然而,应用高斯核也会给关键点的精确定位带来混乱,尤其是对于small
    person的关键点。减少这种混乱的一个繁琐方法就是减少高斯核的标准差。
    然而,我们经验性地发现,它使优化变得更加困难,并导致更糟糕的结果。

  • 我们通过在不同分辨率下预测标准差不变的高分辨率热图来解决这个问题。 自下而上的方法通常预测输入图像分辨率1/4的热图。
    然而,我们发现这个分辨率还不足以预测精确的热图。由于反卷可以有效地生成高质量、高分辨率的特征图,我们在HRNet中的最高分辨率特征图之上构建了HigherHRNet,如图2所示,方法是添加反卷积模块,如3.3节所讨论的。

  • 反卷积模块将HRNet的特征和预测热图作为输入,并生成分辨率比输入特征图大2倍的新特征图。
    因此,反卷积模块与HRNet的特征图一起生成具有两个分辨率的特征金字塔。 反卷积模块还通过增加额外的1×1卷积来预测热图。
    我们按照3.4节训练不同分辨率的热图预测器,并使用(3.5节)中描述的热图聚合策略进行推理。

  • 如果需要更大的分辨率,可以添加更多的反卷积模块。 我们发现反卷积模块的数量取决于数据集中人的规模分布。 一般来说, 包含small
    persons的数据集需要更大的分辨率特征图来进行预测,反之亦然。
    在实验中,我们发现添加一个反卷积模块在COCO数据集上达到了最佳的性能。

3.2 Grouping

  • 最近的工作表明,采用关联嵌入(associate embedding)的简单方法可以很好地解决分组问题。我们使用associate
    embedding 进行关键点分组。 分组过程通过对标签具有小l2距离的关键点进行分组,将无标识关键点聚类成个体。

3.3 Deconvolution Module

我们提出了一个简单的反卷积模块,用于生成分辨率比输入特征图高两倍的高质量特征图。我们使用4×4卷积(a.k.a。 转置卷积),然后是BatchNorm和ReLU,来学习对输入特征图进行上采样。 或者,我们可以在反卷积后进一步添加几个Basic Residual Blocks,来调整上采用的特征图。我们在HigherHRNet中增加了4个残差块。

我们反卷积模块的输入是特征图和来自HRNet或之前反卷积模块的预测热图的连接。每个反卷积模块的输出也用来以多尺度方式预测热图。

3.4 Multi-Resolution Supervision

-与其他自下而上的方法不同,他们只对最大分辨率的热图应用监督, 我们在训练过程中引入了一种多分辨率监督来处理尺度变化。 我们将ground-truth关键点位置转换为所有分辨率热图上的位置,以产生不同分辨率的ground-truth热图。 然后,我们将具有相同标准差的高斯核(默认情况下使用标准差=2)应用于所有这些ground-truth热图。 我们发现重要的是不要缩放高斯核的标准差。 这是因为特征金字塔的不同分辨率适合于预测不同尺度的关键点。 在高分辨率特征图上, 为了更精确地定位small person的关键点,需要一个相对较小的标准差(与特征图的分辨率相比)。

-在HigherHRNet中的每个预测尺度上, 我们计算了该尺度的预测热图与其相关的ground-truth热图之间的均方误差。
热图的最终损失是所有分辨率的均方误差之和。 值得强调的是,由于以下原因,我们没有将不同规模的人分配到特征金字塔的不同层次:

  1. 用于分配训练目标的启发式依赖于数据集和网络体系结构
  2. 其次,应用了高斯核,ground-truth关键点目标相互作用。 因此,通过简单地设置忽略区域来解耦关键点是非常困难的

我们认为模型有能力在特征金字塔的不同层次自动聚焦于特定的尺度。Tagmaps与热图在HigherHRNet中的训练不同,我们只以最低分辨率预测标记图,而不是使用所有分辨率。 这是因为学习tagmap需要全局推理,更适合以较低的分辨率预测tagmap。 我们也发现更高的分辨率并不能很好地预tagmap,甚至不能收敛。因此, 我们以输入图像的1/4分辨率训练特征图上的tagmap。

3.5 Heatmap Aggregation for Inference

我们提出了一种推理过程中的热图聚合策略。 我们使用双线性插值对所有具有不同分辨率的预测热图进行上采样。 这种策略与以前的方法有很大的不同,它只使用来自单个尺度或单个阶段的热图进行预测。 我们使用热图聚合的原因是启用Scale-aware的姿态估计。例如,COCO 关键点数据集 包含从322像素到1282像素以上的大规模方差的人。 自顶向下的方法通过将人区域近似归一化为一个尺度来解决这个问题。 然而,自下而上的方法需要意识到尺度,才能从所有尺度检测关键点。我们发现不同尺度的热图在HigherHRNet中更好地捕捉不同尺度的关键点。 例如,低分辨率热图中漏掉的small persons的关键点可以在高分辨率热图中恢复。 因此,对不同分辨率的预测热图进行平均,使HigherHRNet成为一种scal-aware的姿态估计器。

4 Experiments

5 Conclusion

我们提出了Scale-Aware High-Resolution Network(HigherHRNet)来解决自下而上的多人姿态估计问题中的尺度变化问题, 特别是对于精确定位small persons的关键点。 我们发现多尺度图像金字塔和较大的输入大小部分解决了这个问题, 但是这些方法的计算成本很高。为了解决这个问题, 我们提出了一种基于HRNet的高效高分辨率特征金字塔, 并对其进行多分辨率监督训练。 在推理过程中,具有多分辨率热图聚集的HigherHRNet能够有效地生成多分辨率和高分辨率的热图,以获得更精确的人体姿态估计。 在COCO数据集上,HigherHRNet在很大程度上优于所有现有的自下而上方法,特别是对于small persons。

【参考链接】
(1)https://blog.youkuaiyun.com/m_buddy/article/details/108674449
(2)https://zhuanlan.zhihu.com/p/154454911?from_voters_page=true
(3)https://blog.youkuaiyun.com/murdock_c/article/details/104851289
(4)https://zhuanlan.zhihu.com/p/272814995
(5)https://blog.youkuaiyun.com/qq_41251963/article/details/109557373?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-12.control&dist_request_id=&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-12.control
(6)https://zhuanlan.zhihu.com/p/195278515

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值