论文题目:Context-Guided Spatio-Temporal Video Grounding
- 论文地址:CVPR 2024 Open Access Repository
- 项目地址:https://github.com/HengLan/CGSTVG
摘要
时空视频定位(Spatio-temporal video grounding,STVG)任务的目标是根据给定的文本查询,在视频中定位出特定实例的空间时间管。尽管已有方法取得了一定进展,但在面对视频中的干扰因素或目标外观的剧烈变化时,由于文本提供的目标信息不足,性能往往会下降。为了解决这一问题,此文章提出了一个新颖的框架——context-guided STVG(CG-STVG),该框架挖掘视频中目标的判别性实例上下文,并将其作为补充指导用于目标定位。CG-STVG的核心在于两个特别设计的模块:实例上下文生成(ICG)和实例上下文精炼(ICR)。ICG专注于发现目标的视觉上下文信息(包括外观和运动),而ICR旨在通过消除上下文中的无关甚至有害信息来提升ICG生成的实例上下文。在定位过程中,ICG和ICR被部署在Transformer架构的每个解码阶段用于实例上下文学习。特别地,一个解码阶段学习到的实例上下文会被输入到下一个阶段,并作为包含丰富判别性目标特征的指导,增强解码特征的目标意识,反过来又有利于生成更好的新实例上下文以最终改善定位。与现有方法相比,CG-STVG能够利用文本查询中的目标信息以及挖掘到的实例视觉上下文的指导,实现更准确的目标定位。在HCSTVG-v1/-v2和VidSTG数据集上的实验表明,CG-STVG在所有基准测试中均取得了新的最佳性

最低0.47元/天 解锁文章
374

被折叠的 条评论
为什么被折叠?



