2017_Generating high-quality crowd density maps using contextual pyramid cnns

Generating high-quality crowd density maps using contextual pyramid cnns

说明

本文是对以下这篇文章的总结及部分翻译。
Sindagi V A, Patel V M. Generating high-quality crowd density maps using contextual pyramid cnns[C]//IEEE international conference on computer vision. 2017: 1861-1870.

概括

Sindagi等人提出了一种叫做上下文金字塔CNN(Contextual Pyramid CNN,CP-CNN)的新方法,该方法通过明确地融合人群图像的全局和局部上下文信息来生成高质量的人群密度和计数估计。

本文提出的CP-CNN包含四个模块:Global Context Estimator(GCE),Local Context Estimator(LCE),Density Map Estimator (DME)和Fusion-CNN (F-CNN)。

GCE是一个基于VGG-16的CNN,对全局上下文进行编码,它将输入图像分类成不同的密度类别。

LCE是另一个对局部上下文信息进行编码的CNN,它对输入图像进行不同密度类别的patch-wise分类。

DME 是一种基于多列架构的 CNN,旨在从输入图像生成高维特征图,该图与 GCE 和 LCE 使用 F-CNN 估计的上下文信息融合。

为了生成高分辨率和高质量的密度图,F-CNN使用一组卷积和分段卷积层,并使用对抗损失和像素级欧几里德损失相结合的端到端方式与DME一起训练。

一、Introduction

最近使用不同多尺度架构的基于cnn的方法在解决上述一些问题方面取得了显著成功,特别是在高密度复杂拥挤场景中。然而,在高密度和低密度人群图像出现时,这些方法倾向于低估或高估计数。**一个可能的解决方案是在学习过程中使用上下文信息。**最近的几项关于语义切分的工作、场景解析和视觉显著性已经证明,合并上下文信息可以显著改善结果。受他们成功的启发,我们相信全局上下文的可用性将有助于学习过程并帮助我们实现更好的计数估计。**此外,现有的方法采用最大池化层来实现较小的平移不变性,从而导致低分辨率和低质量的密度图。**此外,据我们所知,**现有的大多数方法只关注计数的质量,而不是密度图的质量。**考虑到这些观察结果,我们建议在提高密度图质量的同时,将全局上下文纳入学习过程。

Contributions:

a)提出了一种新的上下文金字塔CNN (CPCNN),用于人群计数和密度估计,将局部和全局上下文编码到密度估计过程中。

b) 据我们所知,这是第一次尝试专注于生成高质量的密度图。此外,与现有方法相比,我们使用不同的质量度量来评估所提出的方法生成的密度图的质量,例如PSNR/SSIM和报告最先进的结果。

c) 我们除了使用欧几里德损失外,还使用对抗损失来估计人群密度。

d) 在三个极具挑战性的数据集上进行了广泛的实验,并与几种最近最先进的方法进行了比较。此外,还进行了一项消融研究,以证明通过包括上下文信息和对抗性损失所获得的改善。

二、方法

CP-CNN:
在这里插入图片描述
Global Context Estimator(GCE):

最近的工作分别低估或高估高密度和低密度人群图像中的计数,如Figure 2。
在这里插入图片描述
本文认为对图像中存在的上下文进行显式建模以减少估计误差非常重要。为此,我们将全局上下文与图像中呈现的密度水平联系起来,将学习全局上下文的任务视为将输入图像分类为5个不同类别:extremely low-density (ex-lo), lowdensity (lo), medium-density (med), high-density (hi) and extremely high-density (ex-hi)。注意,所需的类数量取决于数据集中的人群密度变化。包含较大变化的数据集可能需要更多的类。在我们的实验中,我们使用五种密度级别获得了显著的改进。

为了学习分类任务,一个基于VGG-16的网络与人群训练数据进行了微调。GCE使用的网络如Figure 4所示。保留了来自 VGG-16 网络的卷积层,但是,最后三个全连接层被替换为不同的全连接层配置,以满足我们将其分为五类的任务。对最后两个卷积层的权重进行了微调,同时对前面的层保持固定的权重。使用预先训练的VGG网络,收敛速度更快,上下文估计性能更好。
在这里插入图片描述
Local Context Estimator (LCE):

现有的人群密度估计方法**主要关注于实现更低的计数误差,而不是估计质量更好的密度图。**这些方法生成的密度图质量较低。在对这些结果进行分析之后,我们相信某种本地上下文信息可以帮助我们实现更好的地图质量。为了达到这一效果,与GCE类似,我们建议通过学习将图像的局部patches分类为{ex-lo, lo, med, hi, ex-hi}这五类之一来学习图像的局部上下文。局部上下文由LCE学习,其架构如Figure 5所示。它由一组卷积层和最大池化层组成,然后是3个完全连接层,在前两个完全连接层之后是适当的drop-out层。每个卷积和完全连接层后面都是ReLU层,但最后一个完全连接层后面是一个sigmoid层。
在这里插入图片描述
Density Map Estimator (DME):

DME 的目标是将输入图像转换为一组高维特征图,这些图将与 GCE 和 LCE 提供的上下文信息连接起来。从高密度人群图像中估计密度图尤其具有挑战性,因为在图像中和图像之间存在不同大小的头部。以前关于多尺度[2]或多列[3]体系结构的工作已经证明,通过在这些场景中实现显著改进,可以处理对象大小的相当大的变化。受这些方法成功的启发,我们使用了类似[3]的多列体系结构。然而,与他们的工作相比,值得注意的是,我们的列更深入,有不同数量的过滤器和过滤器大小,这些过滤器为更低的计数估计误差进行了优化。此外,在这项工作中,多列体系结构用于将输入转换为一组高维特征图,而不是直接使用它们来估计密度图。DME如Figure 6所示。
在这里插入图片描述
Fusion CNN (F-CNN):

利用F-CNN将GCE和LCE的背景信息与DME的高维特征图相结合。F-CNN自动学习合并上下文估计器估计的上下文信息。DME网络中最大池层的存在(这是实现平移不变性的必要条件)会导致降采样特征图和细节丢失。由于这项工作的目的是估计高分辨率和高质量的密度图,F-CNN是使用一组卷积和分段卷积层构建的。这组分段卷积层帮助我们恢复输出密度图中的细节。F-CNN采用如下结构:CR(64,9)-CR(32,7)-TR (32)-CR(16,5)-TR (16)-C(1, 1),C是卷积层,R是ReLU层,T是fractionally-strided convolution层,每个大括号内的第一个数字表示过滤器的数量,第二个数字表示过滤器的大小。每个fractionally-strided convolution层将输入分辨率提高2倍,从而确保输出分辨率与输入分辨率相同。

一旦上下文估计器被训练,DME和F-CNN以端到端方式进行训练。现有的人群密度估计方法都是利用欧几里德损失来训练网络。在图像重建任务中,L2误差的最小化会导致模糊结果,这一点已经得到了广泛的认可。受这些观察结果和最近GANs成功克服l2最小化问题的激励,我们试图通过最小化像素级欧几里德损失和对抗性损失的加权组合来进一步提高密度图的质量。训练F-CNN和DME的损失定义如下:
在这里插入图片描述
phi是由DME和F-CNN组成的网络,phiD用于计算对抗性损失的鉴别子网络,鉴别器子网采用如下结构:CP (64)-CP(128)-M-CP(256)-M-CP(256)-CP(256)-M-C(1)-Sigmoid,其中C表示卷积层,P表示PReLU层,M为max-pooling层。

三、训练和评价细节

Training details:

设D为原始训练数据集。从 D 中每个图像的100个随机位置裁剪原始图像大小 1/4 的patches。其他增强技术如水平翻转和噪声添加被用来创建另外200个补丁。随机裁剪和增强导致训练数据集中每个图像总共有 300 个补丁。将这组图像称为Ddme。另一个训练集Dlc是在D中每幅训练图像的100个随机位置裁剪出大小为64 × 64的patches。

GCE使用数据集Ddme进行训练。根据每个图像中出现的人数来确定相应的ground truth类别。注意,在将图像放入基于VGG的GCE网络之前,图像的大小被调整为224 × 224。然后使用标准的交叉熵损失对网络进行训练。

LCE使用Dlc中的64 × 64补丁进行训练。训练斑块的ground truth类别是根据其中的人数来确定的。然后使用标准的交叉熵损失对网络进行训练。

接下来,DME和F-CNN网络以端到端方式使用来自Ddme的输入训练图像进行训练及其对应的全局和本地上下文。剩下是描述GCE全连接层后面的global context以及LCE全连接层后面的local context如何获得(请看原文)。

Inference details: 请看原文

参考文献

[1]Sindagi V A, Patel V M. Generating high-quality crowd density maps using contextual pyramid cnns[C]//IEEE international conference on computer vision. 2017: 1861-1870.
[2] Onoro-Rubio D, López-Sastre R J. Towards perspective-free object counting with deep learning[C]//European conference on computer vision. Springer, Cham, 2016: 615-629.
[3] Zhang Y, Zhou D, Chen S, et al. Single-image crowd counting via multi-column convolutional neural network[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 589-597.

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值