T-CNN: Tubelets with Convolutional Neural Networks for Object Detection from Videos

最新推荐文章于 2024-12-24 09:35:36 发布

小菜鸡拉

最新推荐文章于 2024-12-24 09:35:36 发布

阅读量1.5w

点赞数 3

CC 4.0 BY-SA版权

分类专栏：视频目标检测文章标签：深度学习

本文链接：https://blog.youkuaiyun.com/xiaofei0801/article/details/72867829

T-CNN是一种基于深度学习的视频对象检测框架，通过结合时间信息和上下文信息来增强静态图像检测框架。通过在相邻帧间传播检测结果和对tubelet的长期一致性调整，以及利用上下文信息抑制误检，T-CNN在视频对象检测中提高了时间一致性和准确性。该方法在ILSVRC2015中取得了显著成果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 INTRODUCTION

近年来，随着新型深度卷积神经网络（CNN）[1]，[2]，[6]，[7]和物体检测框架[3]，[4]，[5]，[8]的成功，物体检测的性能得到显着提高。R-CNN [3]及其后继者[4]，[5]等最先进的对象检测框架从区域提案中提取深度卷积特征，并将提案分类为不同的类别。DeepID-Net [8]通过引入box pre-training, cascade on region proposals,deformation layers and context representations来改进R-CNN。最近，ImageNet引入了一个新的挑战，视频（VID）中的对象检测，将对象检测带入视频领域。在这个挑战中，需要一个物体检测系统，在视频的每一帧中，使用边界框和类标签，自动注释属于30个类中每个对象，而测试视频没有预分配的额外信息，如用户标签（不懂）。 VID在视频分析方面有广泛的应用。

尽管它们对静态图像具有有效性，但这些静态图像对象检测框架并不是为视频而设计的。视频的一个关键因素是时间信息，因为视频中对象的位置和出现应该在时间上是一致的，即检测结果不应该在边界框位置和检测信息方面随时间发生巨大变化。然而，如果静态图像对象检测框架直接应用于视频，则对象的检测置信度显示出相邻帧之间的显着变化和大的长期时间变化，如图1 （a）中的示例所示。