Towards perspective-free object counting with deep learning
说明
本文是对以下这篇文章的总结及部分翻译。
Onoro-Rubio D, López-Sastre R J. Towards perspective-free object counting with deep learning[C]//European conference on computer vision. Springer, Cham, 2016: 615-629.
概括
Onoro-Rubio等人提出了一种基于CNN的回归模型,该模型将图像映射到相应的目标密度图。在没有几何校正的情况下,提出的Hydra CNN能够学习图像多尺度的信息,更加准确地预测密度图。
我们的第一个贡献是提出了一种新颖的卷积神经网络解决方案,名为 Counting CNN(CCNN)。本质上,CCNN 被制定为回归模型,其中网络学习如何将图像块的外观映射到它们相应的目标密度图。我们的第二个贡献在于尺度感知计数模型 Hydra CNN,能够在无法提供场景几何信息的不同的非常拥挤的场景中估计目标密度。Hydra CNN 学习多尺度非线性回归模型,该模型使用以多尺度提取的图像块金字塔来完成最终的密度预测。
一、Introduction
Contributions:
1.提出一个新的深度学习架构,叫做Counting CNN (CCNN),这是一种高效的全卷积神经网络,能够从图像块精确地回归到目标密度图。
2.与大多数需要这些几何信息的最先进的方法相比,我们证明了在不需要任何透视图或场景的其他几何信息的情况下,可以估计物体密度。因此,我们引入了Hydra CNN体系结构,一个尺度感知模型,它学习一个多尺度回归器,用于将一个多尺度patches的金字塔的外观映射到一个目标密度图。就像神话中的九头蛇一样,我们的九头蛇的每一个头都会根据金字塔的特定比例学习特征表达。然后,所有这些头部特征被连接,并通过一组全连接层,形成Hydra的身体,负责学习高维表示,完成最终的密度估计。
3.我们报告了提出的模型的一个彻底的实验验证。使用了三个公开可用数据集,两个用于人群计数,一个用于车辆计数。我们将展示我们的解决方案如何在所有这些异构场景中报告最先进的结果。
二、相关工作
[2]提出了一个多列 CNN,它将不同大小的过滤器生成的特征图叠加起来,并将它们组合起来生成对计数的最终预测。[3] 提出了一个CNN架构来预测密度图,这需要通过使用两种不同的损耗函数的可切换学习过程进行训练。此外,对于人群计数问题,他们不使用网络的直接密度估计。相反,他们使用网络的输出作为特征来拟合实际执行最终密度估计的ridge回归器。本文[1]的模式是不同的。首先,网络架构不一致。其次,我们既不需要整合两个损失,也不需要使用额外的回归器:对象密度图是我们的网络的直接输出,它是用一个回归损失训练的。