16. Optimizing Video Object Detection via a Scale-Time Lattice解读

本文介绍了优化视频对象检测的一种新方法——Scale-Time Lattice,它利用历史运动图像进行时间传播,通过自适应关键帧选择策略提高效率。相比依赖光流的方法,该方法降低了实时系统的计算成本,并在保持良好性能的同时实现了20fps的检测速度,mAP达到79.6。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Optimizing Video Object Detection via a Scale-Time Lattice Kai Chen1 Jiaqi Wang1 Shuo Yang1 CVPR2018

视频类目标检测相关工作:在VID挑战引入ImageNet之前,很少研究视频目标检测。后来Han等人提出Seq-NMS建立高置信度边界框序列并且将框重新评分为平均或者最大置信度。这个方阿飞你属于后期处理,所以需要在每一帧的检测外再额外的运行时间。Kang等人提出了整合每一帧的proposal 生成,边界框跟踪还有tubelet重评分。成本比较高。Zhu等人提出了DFF在固定的关键帧上用深度网络提取特征,然后用光流传播到其他帧。这个方法比在每一帧上检测提高了10倍速度,mAP也降低了4.4%(73.9%-69.5%),基于先前的方法,Zhu等人又提出了FGFA,沿着运动路径将附近的特征进行融合,以此提高特征质量,但是由于密集的检测和Flow的计算,导致运行速度较慢,在1fps左右。Feichtenhofe等人提出学习多任务的目标检测和跨帧跟踪,并将帧级检测和tubes连接起来,他们不研究时间传播,只在帧之间执行插值。

由粗到细方法:应用在人脸对齐,光流估计,语义分割,超分辨率等问题上,都是采用级联结构从低分辨率到高分辨率进行细化结果。本文的方法是采用2维的coarse-to-fine 习惯,包括时间和空间。

技术设计:

  1. Propagation and Refinement Unit(PRU)
    

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值