Abstract
本文提出了一种在不利照明条件下检测行人的新方法。 我们的方法依赖于一种新型的跨模态学习框架,它基于两个主要阶段。 首先,给出一个多模态数据集,采用深度卷积网络学习非线性映射,对RGB和热图之间的关系进行建模。 然后,所学习的特征表示被迁移到第二个深度网络,其接收RGB图像作为输入,并输出检测结果。 以这种方式,学习到了对不良照明条件具有判别性和鲁棒性的特征。 重要的是,在测试时,只考虑第二条流水线,不需要热量数据。 我们的广泛评估表明,所提出的方法胜过了 具有挑战性的KAIST多光谱行人数据集的state-of-the-art,并且与以前的方法在流行的Caltech数据集上具有竞争力。
1.Introduction
行人检测研究[3]已经在具有挑战性的条件下取得了巨大进步,例如杂乱的背景,大量遮挡和微小目标外观。对于许多其他计算机视觉任务,在过去几年中,由于基于深层网络的方法,实现了显着的性能提升[21,1,17,32]。另外,采用新颖的传感器,例如热和深度摄像机,提供了新的机会,通过解决不利的照明条件和遮挡等问题,推进了行人检测的最新技术[15,11,24]。然而,监控系统中绝大多数相机网络仍然采用传统的RGB传感器和在照明变化、阴影和低外部光线情况下行人检测仍然是一个具有挑战性的开放性问题。
本文介绍了一种基于卷积神经网络(CNN)的新方法来解决这个问题。我们的方法受到最近的工作的启发,表明从跨模态数据学习深层次的表示对于检测和识别任务是非常有益的[12,13]。然而,大多数方法假定大量可用的注释数据集。在行人检测的具体情况下,社区可以依赖于使用监控摄像机,汽车和机器人平台收集的大量视觉数据,但是几乎没有标记的多模态数据集。因此,由于近来无监督的深度学习技术的成功,我们引入了一种学习cross-modal表示的行人检测方法,不需要行人的外边框注释。更具体地说,我们提出利用来自多光谱数据的信息,并使用深度卷积网络学习从RGB到热图像的非线性映射,而无需人为的监督。然后通过将学习的表示集成到第二个深层网络中,通过对RGB数据进行操作并有效地建模多尺度信息来利用cross-modal映射。重要的是,在测试时,不需要热图数据,仅在彩色图像上进行行人检测。
图1描述了所提出的方法的概述。我们的直觉,如图2所示,是通过利用所提出的方法和多光谱数据,更容易区分彩色图像中的hard-negative样本(例如,具有类似于行人外观的电杆或树),从而提高检测精度。在不良照明条件下捕获的几帧,在公开数据集的实验结果表明我们的方法优于以前的方法。本文的主要贡