文章来源 《T-CNN: Tubelets with Convolutional Neural
Networks for Object Detection from Videos》
INTRODUCTION
视频主要包含两部分的信息:
- 每一帧的图像(空间信息)
- 帧之间的顺序 (时间信息)
视频检测需要考虑到目标框(box location)和置信度(confidence)在短时间内不能有很大的变化,即保持时间连续性(temporal consistansy)
一种做法是将某一帧检测到的结果根据运动信息传播到相邻帧去,如果与相邻帧重复了可以轻松地用非极大抑制去除(non-maximum suppression,NMS)。
另一种做法是 。。。
FRAMEWORK
T-CNN包含四部分:
- 静态图像检测
- 抑制和传播
- 重打分
- 模型融合
静态图像检测
用了两个模型,一个是RCNN的变种DeepID-Net,一个是Faster RCNN的变种,CRAFT。训练数据不仅用视频检测的训练集,也用静态图像检测的训练集。
这两个模型独立的检测视频里的每一帧图像
多上下文抑制 Multi-context suppression (MCS)
通过统计发现一帧里平均包含目标1.134个,方差为0.356. 所以不太可能许多类目标会同时出现,对于低置信度的要抑制。
将整个视频的所有检测结果按置信度(也可以说是得分)排列,得分低的将被抑制,即减去某一固定值。这样将加大高得分与低得分的边界。
MCS能减少假正例(False Positive)的出现
传播 Motion-guided propagation (MGP)
根据运动信息(例如光流,optical flow)将某一帧的检测结果传播到相邻帧。
MGP能减少假负例(False Negtive)的出现。假设false negtive的概率为p且帧间独立,那么将某一帧的相邻w帧的检测结果传播到这一帧上可以将false negtive概率降为
p
w
p^w
pw。
MGP同时可能引入false positive ,但后面跟上非极大抑制就会好一点。
重打分 Tubelet re-scoring
MGP只是在较短的一小段视频上操作。为了利用视频长时间的连续性的特点,仍然需要设计一个长期的“管道”(Tubelet)来对检测的box重打分,进一步加大高得分与低得分的边界。
可分为三步:
- High-confidence tracking:对每个类别,在整个视频的检测结果中选得分最高的box为起点,往时间轴的两边追踪这个box的变化。当box的得分低于0.1时,停止追踪,得到一个tubelet。然后选一个新的起点,重复上述过程,直到所有得分较高的检测结果都属于某一tubelet
模型融合