1 INTRODUCTION
近年来,随着新型深度卷积神经网络(CNN)[1],[2],[6],[7]和物体检测框架[3],[4],[5],[8]的成功,物体检测的性能得到显着提高。R-CNN [3]及其后继者[4],[5]等最先进的对象检测框架从区域提案中提取深度卷积特征,并将提案分类为不同的类别。DeepID-Net [8]通过引入box pre-training, cascade on region proposals,deformation layers and context representations来改进R-CNN。最近,ImageNet引入了一个新的挑战,视频(VID)中的对象检测,将对象检测带入视频领域。在这个挑战中,需要一个物体检测系统,在视频的每一帧中,使用边界框和类标签,自动注释属于30个类中每个对象,而测试视频没有预分配的额外信息,如用户标签(不懂)。 VID在视频分析方面有广泛的应用。
尽管它们对静态图像具有有效性,但这些静态图像对象检测框架并不是为视频而设计的。视频的一个关键因素是时间信息,因为视频中对象的位置和出现应该在时间上是一致的,即检测结果不应该在边界框位置和检测信息方面随时间发生巨大变化。然而,如果静态图像对象检测框架直接应用于视频,则对象的检测置信度显示出相邻帧之间的显着变化 和大的长期时间变化 ,如图1 (a) 中的示例所示。
提高时间一致性的一个直觉是将检测结果传播到邻近帧以减少检测结果的突然变化。如果在某个帧存在一个对象,相邻帧可能在相邻位置具有相似置信度的相同的对象。换句话说,检测结果可以根据运动信息传播到相邻帧,以便减少错误的检测。通过非极大值抑制(NMS)可以轻松地删除生成的重复框。
提高时间一致性的另一个直觉是对检测结果施加长期约束。如图 1(a)所示,一个物体的外边框序列的检测分数随着时间的