T-CNN: Tubelets with Convolutional Neural Networks for Object Detection from Videos

T-CNN是一种基于深度学习的视频对象检测框架,通过结合时间信息和上下文信息来增强静态图像检测框架。通过在相邻帧间传播检测结果和对tubelet的长期一致性调整,以及利用上下文信息抑制误检,T-CNN在视频对象检测中提高了时间一致性和准确性。该方法在ILSVRC2015中取得了显著成果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 INTRODUCTION

      近年来,随着新型深度卷积神经网络(CNN)[1],[2],[6],[7]和物体检测框架[3],[4],[5],[8]的成功,物体检测的性能得到显着提高。R-CNN [3]及其后继者[4],[5]等最先进的对象检测框架从区域提案中提取深度卷积特征,并将提案分类为不同的类别DeepID-Net [8]通过引入box pre-training, cascade on region proposals,deformation layers and context representations来改进R-CNN。最近,ImageNet引入了一个新的挑战,视频(VID)中的对象检测,将对象检测带入视频领域。在这个挑战中,需要一个物体检测系统,在视频的每一帧中,使用边界框和类标签,自动注释属于30个类中每个对象,而测试视频没有预分配的额外信息,如用户标签(不懂)。 VID在视频分析方面有广泛的应用。

       尽管它们对静态图像具有有效性,但这些静态图像对象检测框架并不是为视频而设计的。视频的一个关键因素是时间信息,因为视频中对象的位置和出现应该在时间上是一致的,即检测结果不应该在边界框位置和检测信息方面随时间发生巨大变化。然而,如果静态图像对象检测框架直接应用于视频,则对象的检测置信度显示出相邻帧之间的显着变化 和大的长期时间变化 ,如图1 (a) 中的示例所示。


      提高时间一致性的一个直觉是将检测结果传播到邻近帧以减少检测结果的突然变化。如果在某个帧存在一个对象,相邻帧可能在相邻位置具有相似置信度的相同的对象。换句话说,检测结果可以根据运动信息传播到相邻帧,以便减少错误的检测。通过非极大值抑制(NMS)可以轻松地删除生成的重复框。

       提高时间一致性的另一个直觉是对检测结果施加长期约束。如图 1(a)所示,一个物体的外边框序列的检测分数随着时间的

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值