Introduction
人群计数所面临的挑战之一是由视角畸变导致的外观和尺度变化。许多方法都将尺度信息合并到学习过程中。早期的方法是通过多源或者手工设计提取特征,但是这些方法在高密度人群中是无效的,而且结果不是最优的。目前基于CNN的方法开始应用在人群计数上。考虑到尺度问题是影响准确率的一个因素,有些基于CNN的方法通过多列网络或多分辨率网络解决这个问题。虽然这些方法对于尺度变化有一定的鲁棒性,但是不能作为一个通用的学习模型。
本论文的目的是将一个高级先验与网络合并,学习出一个满足数据集中各种密度等级的模型。高级先验先根据图中人的数量分为不同的带标签的组。利用标签,这个高级先验能大致估计整个图片中的人数,而不受尺度变化的影响,从而使网络能学到更多的判别全局特征。利用高级先验和CNN网络共同进行密度图的估计

这两个任务(人群密度估计和高级先验)共享一个卷积层,然后分为两个网络。将高阶先验学习到的全局特征与第二组卷积层获得的特征图连接起来,再由一组分阶条纹卷积层进一步处理,得到高分辨率密度图。
Related work
传统的人群计数依赖于手工提取低级特征,在这些特征和密度或数量间建立映射,通过不同的回归方法得出结果。Loy将这些方法分为三类:基于探测的方法、基于回归的方法和基于密度估计的方法。
基于探测的方法主要使用基于滑动窗口的探测算法计算图片中物体实例的数量,不适用于高密度人群和杂乱背景下。为了克服这些问题,研究人员试图通过回归来计算,在回归中他们学习了从局部图像中提取的特征与数量之间的映射关系。Idree利用相似的方法,融合了多个来源计数,同时还提出了含有50张图片,64000个人的数据集UCF_CC_50。
检测和回归方法在对全局计数进行回归时,忽略了图像中存在的关键空间