2015_Cross-scene crowd counting via deep convolutional neural networks

说明

本文是对以下这篇文章的总结及部分翻译。
Zhang C, Li H, Wang X, et al. Cross-scene crowd counting via deep convolutional neural networks[C]//CVPR. 2015: 833-841.

概括

大多数现有的人群计数方法在应用到未见的场景时,其性能显著下降。为了解决这个问题,我们提出了一种用于人群计数的深度卷积神经网络,以人群密度和人群计数两个相关的学习目标交替训练。所提出的可切换学习方法能够获得更好的局部最优。针对未见的目标人群场景,我们提出了一种数据驱动的方法来微调预训练后的CNN模型,使其适应未见的目标场景。

引入了新的数据集WorldExpo ’ 10,包含108个人群场景、近20万个头部标注数据。

一、Introduction

拟解决问题:

为特定场景学习的人群计数模型只能应用于同一场景。给定一个看不见的场景或更改过的场景布局,必须用新的注释对模型进行重新训练。对于一个新的目标场景不需要额外的注释,目标是学习从图像到人群计数的映射,然后在看不见的目标场景中使用映射进行跨场景人群计数。

挑战:

a) 开发有效的特性来描述人群。之前的工作使用的是一般的人工制作特征,对人群的表达能力较低。需要为人群场景专门设计或学习新的描述符。

b) 不同的场景有不同的透视形变(perspective distortions)、人群分布和光照条件。在没有额外训练数据的情况下,在一个特定场景中训练出来的模型很难用于其他场景。

c) 在最近的工作中,前景分割对于人群计数是必不可少的。但是人群分割是一个具有挑战性的问题,在大多数拥挤的场景中都不能准确地得到。场景也可能有静止的人群没有移动。

d) 现有的人群计数数据集不足以支持和评价跨场景计数研究。

提出的方法:

我们提出了一个基于CNN的跨场景人群计数框架。用固定的数据集训练CNN后,引入数据驱动的方法进行微调已经学习到的CNN用于一个未见的目标场景,从训练场景中检索出与目标场景相似的训练样本进行微调。Figure 1说明了总体框架。该方法有以下优点:

a) 我们的CNN模型通过一个可切换的学习过程对人群场景进行训练,该学习过程有两个学习目标:人群密度图和人群计数。**这两个不同但相关的目标可以互相帮助以获得更好的局部最优。**我们的CNN模型学习人群特有的特征,这比人工制作的特征更有效和健壮。

b) 在我们的框架中,目标场景不需要额外的标签来进行跨场景计数。预先训练好的CNN模型针对每个目标场景进行微调,以克服不同场景之间的域间隙。微调的模型是专门适应新的目标场景。

c) 该框架不依赖于前景分割结果,因为我们的方法只考虑外观信息。无论人群是否在运动,CNN模型都会捕捉到人群的纹理,得到合理的计数结果。

d) 介绍了一个新的数据集。
在这里插入图片描述

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值