【视频检测】T-CNN

文章来源 《T-CNN: Tubelets with Convolutional Neural
Networks for Object Detection from Videos》

INTRODUCTION

视频主要包含两部分的信息:

  • 每一帧的图像(空间信息)
  • 帧之间的顺序 (时间信息)

视频检测需要考虑到目标框(box location)和置信度(confidence)在短时间内不能有很大的变化,即保持时间连续性(temporal consistansy)

一种做法是将某一帧检测到的结果根据运动信息传播到相邻帧去,如果与相邻帧重复了可以轻松地用非极大抑制去除(non-maximum suppression,NMS)。

另一种做法是 。。。

FRAMEWORK

T-CNN包含四部分:

  • 静态图像检测
  • 抑制和传播
  • 重打分
  • 模型融合

静态图像检测
用了两个模型,一个是RCNN的变种DeepID-Net,一个是Faster RCNN的变种,CRAFT。训练数据不仅用视频检测的训练集,也用静态图像检测的训练集。
这两个模型独立的检测视频里的每一帧图像

多上下文抑制 Multi-context suppression (MCS)
通过统计发现一帧里平均包含目标1.134个,方差为0.356. 所以不太可能许多类目标会同时出现,对于低置信度的要抑制。
将整个视频的所有检测结果按置信度(也可以说是得分)排列,得分低的将被抑制,即减去某一固定值。这样将加大高得分与低得分的边界。
MCS能减少假正例(False Positive)的出现

传播 Motion-guided propagation (MGP)
根据运动信息(例如光流,optical flow)将某一帧的检测结果传播到相邻帧。
MGP能减少假负例(False Negtive)的出现。假设false negtive的概率为p且帧间独立,那么将某一帧的相邻w帧的检测结果传播到这一帧上可以将false negtive概率降为 p w p^w pw
MGP同时可能引入false positive ,但后面跟上非极大抑制就会好一点。

重打分 Tubelet re-scoring
MGP只是在较短的一小段视频上操作。为了利用视频长时间的连续性的特点,仍然需要设计一个长期的“管道”(Tubelet)来对检测的box重打分,进一步加大高得分与低得分的边界。
可分为三步:

  1. High-confidence tracking:对每个类别,在整个视频的检测结果中选得分最高的box为起点,往时间轴的两边追踪这个box的变化。当box的得分低于0.1时,停止追踪,得到一个tubelet。然后选一个新的起点,重复上述过程,直到所有得分较高的检测结果都属于某一tubelet

模型融合

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值