Cross-scene crowd counting via deep convolutional neural networks
说明
本文是对以下这篇文章的总结及部分翻译。
Zhang C, Li H, Wang X, et al. Cross-scene crowd counting via deep convolutional neural networks[C]//CVPR. 2015: 833-841.
概括
大多数现有的人群计数方法在应用到未见的场景时,其性能显著下降。为了解决这个问题,我们提出了一种用于人群计数的深度卷积神经网络,以人群密度和人群计数两个相关的学习目标交替训练。所提出的可切换学习方法能够获得更好的局部最优。针对未见的目标人群场景,我们提出了一种数据驱动的方法来微调预训练后的CNN模型,使其适应未见的目标场景。
引入了新的数据集WorldExpo ’ 10,包含108个人群场景、近20万个头部标注数据。
一、Introduction
拟解决问题:
为特定场景学习的人群计数模型只能应用于同一场景。给定一个看不见的场景或更改过的场景布局,必须用新的注释对模型进行重新训练。对于一个新的目标场景不需要额外的注释,目标是学习从图像到人群计数的映射,然后在看不见的目标场景中使用映射进行跨场景人群计数。
挑战:
a) 开发有效的特性来描述人群。之前的工作使用的是一般的人工制作特征,对人群的表达能力较低。需要为人群场景专门设计或学习新的描述符。
b) 不同的场景有不同的透视形变(perspective distortions)、人群分布和光照条件。在没有额外训练数据的情况下,在一个特定场景中训练出来的模型很难用于其他场景。
c) 在最近的工作中,前景分割对于人群计数是必不可少的。但是人群分割是一个具有挑战性的问题,在大多数拥挤的场景中都不能准确地得到。场景也可能有静止的人群没有移动。
d) 现有的人群计数数据集不足以支持和评价跨场景计数研究。
提出的方法:
我们提出了一个基于CNN的跨场景人群计数框架。用固定的数据集训练CNN后,引入数据驱动的方法进行微调已经学习到的CNN用于一个未见的目标场景,从训练场景中检索出与目标场景相似的训练样本进行微调。Figure 1说明了总体框架。该方法有以下优点:
a) 我们的CNN模型通过一个可切换的学习过程对人群场景进行训练,该学习过程有两个学习目标:人群密度图和人群计数。**这两个不同但相关的目标可以互相帮助以获得更好的局部最优。**我们的CNN模型学习人群特有的特征,这比人工制作的特征更有效和健壮。
b) 在我们的框架中,目标场景不需要额外的标签来进行跨场景计数。预先训练好的CNN模型针对每个目标场景进行微调,以克服不同场景之间的域间隙。微调的模型是专门适应新的目标场景。
c) 该框架不依赖于前景分割结果,因为我们的方法只考虑外观信息。无论人群是否在运动,CNN模型都会捕捉到人群的纹理,得到合理的计数结果。
d) 介绍了一个新的数据集。