Optimizing Video Object Detection via a Scale-Time Lattice Kai Chen1 Jiaqi Wang1 Shuo Yang1 CVPR2018
视频类目标检测相关工作:在VID挑战引入ImageNet之前,很少研究视频目标检测。后来Han等人提出Seq-NMS建立高置信度边界框序列并且将框重新评分为平均或者最大置信度。这个方阿飞你属于后期处理,所以需要在每一帧的检测外再额外的运行时间。Kang等人提出了整合每一帧的proposal 生成,边界框跟踪还有tubelet重评分。成本比较高。Zhu等人提出了DFF在固定的关键帧上用深度网络提取特征,然后用光流传播到其他帧。这个方法比在每一帧上检测提高了10倍速度,mAP也降低了4.4%(73.9%-69.5%),基于先前的方法,Zhu等人又提出了FGFA,沿着运动路径将附近的特征进行融合,以此提高特征质量,但是由于密集的检测和Flow的计算,导致运行速度较慢,在1fps左右。Feichtenhofe等人提出学习多任务的目标检测和跨帧跟踪,并将帧级检测和tubes连接起来,他们不研究时间传播,只在帧之间执行插值。
由粗到细方法:应用在人脸对齐,光流估计,语义分割,超分辨率等问题上,都是采用级联结构从低分辨率到高分辨率进行细化结果。本文的方法是采用2维的coarse-to-fine 习惯,包括时间和空间。
技术设计:
-
Propagation and Refinement Unit(PRU)