T-CNN视频目标检测-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_43257640/article/details/104758443

文章来源《T-CNN: Tubelets with Convolutional Neural
Networks for Object Detection from Videos》

INTRODUCTION

视频主要包含两部分的信息：

每一帧的图像（空间信息）
帧之间的顺序（时间信息）

视频检测需要考虑到目标框（box location）和置信度（confidence）在短时间内不能有很大的变化，即保持时间连续性（temporal consistansy）

一种做法是将某一帧检测到的结果根据运动信息传播到相邻帧去，如果与相邻帧重复了可以轻松地用非极大抑制去除（non-maximum suppression，NMS）。

另一种做法是。。。

FRAMEWORK

T-CNN包含四部分：

静态图像检测
抑制和传播
重打分
模型融合

静态图像检测
用了两个模型，一个是RCNN的变种DeepID-Net，一个是Faster RCNN的变种，CRAFT。训练数据不仅用视频检测的训练集，也用静态图像检测的训练集。
这两个模型独立的检测视频里的每一帧图像

多上下文抑制 Multi-context suppression (MCS)
通过统计发现一帧里平均包含目标1.134个，方差为0.356. 所以不太可能许多类目标会同时出现，对于低置信度的要抑制。
将整个视频的所有检测结果按置信度（也可以说是得分）排列，得分低的将被抑制，即减去某一固定值。这样将加大高得分与低得分的边界。
MCS能减少假正例（False Positive）的出现

传播 Motion-guided propagation (MGP)
根据运动信息（例如光流，optical flow）将某一帧的检测结果传播到相邻帧。
MGP能减少假负例（False Negtive）的出现。假设false negtive的概率为p且帧间独立，那么将某一帧的相邻w帧的检测结果传播到这一帧上可以将false negtive概率降为 $p^w$ 。
MGP同时可能引入false positive ，但后面跟上非极大抑制就会好一点。

重打分 Tubelet re-scoring
MGP只是在较短的一小段视频上操作。为了利用视频长时间的连续性的特点，仍然需要设计一个长期的“管道”（Tubelet）来对检测的box重打分，进一步加大高得分与低得分的边界。
可分为三步：