概述:
引入了一个新颖的“堆叠沙漏”网络设计来预测人类姿势。该网络可捕获和整合图像所有尺度的信息。我们将该设计称为沙漏,其基础是我们对用于获得网络最终输出的汇集和后续上采样步骤的可视化。像许多产生像素输出的卷积方法一样,沙漏网络将分辨率降低到非常低,然后在多个分辨率上对特征进行上采样和组合。另一方面,沙漏不同于以前的设计,主要在于其更对称的拓扑结构。
通过将多个沙漏模块端到端地连续放置在一起来扩展单个沙漏。这允许跨尺度重复自下而上、自上而下的推理。结合中间监督的使用,重复的双向推理对于网络的最终性能至关重要。
网络结构和方法:
网络必须有某种机制来跨规模有效地处理和整合功能。一些方法通过使用独立的管道来解决这个问题,这些管道以多种分辨率独立处理图像,并在以后的网络中组合特征[15,18]。相反,我们选择使用带有跳过层的单个管道来保留每个分辨率下的空间信息。该网络的最低分辨率为4×4像素,允许应用更小的空间滤波器来比较图像整个空间的特征。
沙漏设置如下:卷积和最大池层用于处理低分辨率的特征。在每个最大池化步骤中,网络分支并以原始预池化分辨率应用更多卷积。在达到最低分辨率后,网络开始自上而下的上采样序列和跨尺度的特征组合。为了汇集两个相邻分辨率的信息,我们遵循Tompson等人[15]描述的过程,对较低分辨率进行最近邻上采样,然后对两组特征进行元素式添加。沙漏的拓扑结构是对称的,所以在下降的过程中,每一层都有一个对应的上升层。
在达到网络的输出分辨率后,应用两轮连续的1×1卷积来产生最终的网络预测。网络的输出是一组热图,其中对于给定的热图,网络预测每个像素处关节出现的概率。