Towards High Performance Video Object Detection Xizhou Zhu∗ Jifeng Dai Lu Yuan Yichen Wei CVPR2018
在DFF和FGFA基础上进行了三点改进,在速度和精度上进行了权衡。DFF专注于提高速度,FGFA专注于精度,本文将两者优势结合起来。
(1)
特征的稀疏递归聚合
FGFA是在每一帧上进行特征聚合,而在这里只在稀疏的关键帧上进行聚合。上一个关键帧增强当前关键帧,增强后的关键帧又去增强下一个关键帧。
第一个公式是对两个连续的关键帧k k‘进行递归特征聚合,用上一帧warp过来的特征和当前帧的真实特征进行加权求和,得到聚合的增强特征,聚合后的关键帧包含了之前所有关键帧的特征信息。
(2)
空间自适应局部特征更新
与关键帧相邻的非关键帧有部分区域变化较大,如果用光流传播的特征就容易出错,所以在这里引入一个叫特征信息时间一致性的判别矩阵Q,由光流网络生成,大小和特征光流场一样大,每一个位置的值表示这个位置的光流的质量,若在某位置p的值小于阈值,则说明该位置的光流不行,质量不好,需要重新计算p位置的特征
(3)
自适应的关键帧选取
之前的关键帧都是固定间隔选取的,本文采用矩阵Q和is_key()函数计算出那些光流质量不好的点占的比例,如果大于设置的阈值,就说明当前帧与上一关键帧的变化就很大,就设置成新的关键帧