Towards High Performance Video Object Detection解读

该文提出一种在视频对象检测中兼顾速度和精度的改进方法,结合DFF和FGFA的优势。通过稀疏关键帧的特征聚合、空间自适应局部特征更新和自适应关键帧选取策略,提升检测性能。实验表明,这些改进有效平衡了速度与准确率的权衡。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Towards High Performance Video Object Detection Xizhou Zhu∗ Jifeng Dai Lu Yuan Yichen Wei CVPR2018

在DFF和FGFA基础上进行了三点改进,在速度和精度上进行了权衡。DFF专注于提高速度,FGFA专注于精度,本文将两者优势结合起来。

(1)
特征的稀疏递归聚合

FGFA是在每一帧上进行特征聚合,而在这里只在稀疏的关键帧上进行聚合。上一个关键帧增强当前关键帧,增强后的关键帧又去增强下一个关键帧。

在这里插入图片描述

第一个公式是对两个连续的关键帧k k‘进行递归特征聚合,用上一帧warp过来的特征和当前帧的真实特征进行加权求和,得到聚合的增强特征,聚合后的关键帧包含了之前所有关键帧的特征信息。

(2)
空间自适应局部特征更新

与关键帧相邻的非关键帧有部分区域变化较大,如果用光流传播的特征就容易出错,所以在这里引入一个叫特征信息时间一致性的判别矩阵Q,由光流网络生成,大小和特征光流场一样大,每一个位置的值表示这个位置的光流的质量,若在某位置p的值小于阈值,则说明该位置的光流不行,质量不好,需要重新计算p位置的特征
在这里插入图片描述

(3)
自适应的关键帧选取

之前的关键帧都是固定间隔选取的,本文采用矩阵Q和is_key()函数计算出那些光流质量不好的点占的比例,如果大于设置的阈值,就说明当前帧与上一关键帧的变化就很大,就设置成新的关键帧

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值