论文题目:Context-Guided Spatio-Temporal Video Grounding
- 论文地址:CVPR 2024 Open Access Repository
- 项目地址:https://github.com/HengLan/CGSTVG
摘要
时空视频定位(Spatio-temporal video grounding,STVG)任务的目标是根据给定的文本查询,在视频中定位出特定实例的空间时间管。尽管已有方法取得了一定进展,但在面对视频中的干扰因素或目标外观的剧烈变化时,由于文本提供的目标信息不足,性能往往会下降。为了解决这一问题,此文章提出了一个新颖的框架——context-guided STVG(CG-STVG),该框架挖掘视频中目标的判别性实例上下文,并将其作为补充指导用于目标定位。CG-STVG的核心在于两个特别设计的模块:实例上下文生成(ICG)和实例上下文精炼(ICR)。ICG专注于发现目标的视觉上下文信息(包括外观和运动),而ICR旨在通过消除上下文中的无关甚至有害信息来提升ICG生成的实例上下文。在定位过程中,ICG和ICR被部署在Transformer架构的每个解码阶段用于实例上下文学习。特别地,一个解码阶段学习到的实例上下文会被输入到下一个阶段,并作为包含丰富判别性目标特征的指导,增强解码特征的目标意识,反过来又有利于生成更好的新实例上下文以最终改善定位。与现有方法相比,CG-STVG能够利用文本查询中的目标信息以及挖掘到的实例视觉上下文的指导,实现更准确的目标定位。在HCSTVG-v1/-v2和VidSTG数据集上的实验表明,CG-STVG在所有基准测试中均取得了新的最佳性能,证明了实例上下文指导对STVG的有效性。
Part.01 研究贡献
- 本文提出了CG-STVG,这是一种通过挖掘视频中的实例视觉上下文来指导目标定位的新颖且简单的方法,用于改进STVG。
- 提出了实例上下文生成模块(ICG),用于发现目标的视觉上下文信息。
- 提出了实例上下文精炼模块(ICR),通过消除无关上下文特征来提升目标的上下文,极大地增强了性能。
- 在三个基准测试(包括HCSTVG-v1/-v2和VidSTG)上进行了广泛的实验,CG-STVG均取得了新的最佳性能,展现了有效性。
Part.02 模型结构
本文提出了一种新颖的context-guided STVG(CG-STVG)框架,旨在通过挖掘视频中目标的判别性实例上下文来提升时空视频定位的准确性。该框架核心在于实例上下文生成(ICG)和实例上下文精炼(ICR)两个模块。ICG专注于从视频中发现目标的视觉上下文信息,涵盖外观和运动特征;ICR则致力于消除ICG生成的上下文中的无关信息,以增强上下文的质量。在定位过程中,这两个模块被集成到Transformer架构的每个解码阶段,通过逐步传递和优化实例上下文,增强解码特征的目标意识,从而更精准地定位目标。
Part.03 数据集
HCSTVG-v1 数据集
- HCSTVG-v1 数据集专注于视频中的人类目标,是时空视频定位领域的早期数据集之一。该数据集包含 4,500 个视频-句子对,其中 4,000 个用于训练,500 个用于测试。视频中的目标主要为人物,场景多样,涵盖了各种日常活动。
- 数据集中的视频帧分辨率为 1920×1080,提供了高质量的视觉信息。标注详细,包括目标的时空管(由一系列边界框组成),为模型训练和评估提供了丰富的数据支持。
- 尽管数据集规模较大,但在复杂场景下,如多人交互或目标外观变化较大时,定位任务仍具有挑战性。
HCSTVG-v2 数据集
- HCSTVG-v2 是 HCSTVG-v1 的扩展版本,进一步增加了数据量和场景多样性。该数据集包含 10,131 个训练样本、2,000 个验证样本和 4,413 个测试样本,涵盖了更广泛的场景和目标类型。
- 数据集中的视频帧分辨率与 HCSTVG-v1 相同,为 1920×1080。标注更加精细,不仅包括目标的时空管,还提供了目标的类别信息,有助于模型更好地理解目标的语义信息。
- 由于数据量的增加和场景的复杂性,模型需要具备更强的泛化能力和鲁棒性,以应对各种复杂的场景和目标变化。
VidSTG 数据集
- VidSTG 数据集基于视频关系数据集构建,包含 80,684 个训练样本、8,956 个验证样本和 10,303 个测试样本。该数据集不仅涵盖了人物目标,还包含了其他类型的对象,如动物、车辆等,场景更加多样化。
- 视频帧分辨率为 1920×1080,提供了丰富的视觉细节。标注包括目标的时空管和类别信息,同时提供了文本描述,有助于模型更好地理解目标与文本之间的关系。
- VidSTG 数据集中的目标类型多样,场景复杂,目标之间的交互频繁,这增加了时空视频定位的难度。模型需要能够准确地识别和定位目标,同时处理目标之间的关系和交互。
Part.04 实验结果
定量实验
在HCSTVG-v1数据集上,CG-STVG在m tIoU、m vIoU、vIoU@0.3和vIoU@0.5四个指标上均取得了最佳性能,分别比基线方法高出2.4%、1.9%、2.9%和4.0%。在HCSTVG-v2数据集的验证集上,CG-STVG在m tIoU、m vIoU、vIoU@0.3和vIoU@0.5四个指标上也取得了最佳性能,分别比基线方法高出1.4%、1.7%、2.1%和4.2%。在更具挑战性的VidSTG数据集上,CG-STVG在所有8个指标上均取得了最佳性能,对于声明句,m tIoU和m vIoU分别比基线方法高出1.7%和1.6%;对于疑问句,m tIoU和m vIoU分别比基线方法高出1.1%和1.3%。这些结果充分证明了CG-STVG在时空视频定位任务中的有效性和优越性。实验结果如下表1-3所示
表1 CG-STVG在HCSTVG-v1上与SOTA的对比
表2 CG-STVG在HCSTVG-v2上与SOTA的对比
表3 CG-STVG在VidSTG上与SOTA的对比
定性实验
在HCSTVG-v1数据集上的消融实验中,CG-STVG通过引入ICG和ICR模块,显著提升了模型性能。具体来说,仅使用ICG时,m vIoU得分从基线的36.52%提升至37.42%;进一步结合时间精炼,m vIoU提升至37.86%;结合空间精炼,m vIoU提升至38.04%;而同时使用时空精炼时,m vIoU达到最高38.42%,显示出时空联合精炼机制的协同效应。此外,ICR中的时间阈值θt和空间阈值θs对模型性能有显著影响,当θt设为0.7、θs设为0.8时,模型表现最佳,m tIoU、m vIoU和vIoU@0.5分别达到52.84%、38.42%和36.29%。在使用时间和空间置信度分数的实验中,两级方法优于单级方法,m vIoU、vIoU@0.3和vIoU@0.5分别为38.42%、61.47%和36.29%。最后,在TDB中应用实例上下文会导致模型性能略有下降,m tIoU从52.84%降至52.61%,m vIoU从38.42%降至38.01%,这表明直接在时间分支使用空间分支的上下文可能引起边界模糊。这些定性实验结果进一步验证了CG-STVG中各关键模块的有效性和必要性。
表4 ICG和ICR在HCSTVG-v1测试集上的消融研究
表5 ICR中时间和空间阈值的消融研究
表6 时间和空间置信度分数使用方法的消融研究
表7 在TDB中应用实例上下文的消融研究
Part.05 研究展望
本文讨论了时空视频定位任务中目标信息不足导致的性能下降挑战,通过引入实例上下文生成(ICG)和实例上下文精炼(ICR)模块解决了该挑战。ICG和ICR模块通过挖掘视频中的判别性实例上下文信息,显著提升了CG-STVG的性能,使其在多个数据集上超越了现有的最先进方法(SOTA)。然而,在计算复杂性、实时性等方面仍有改进的空间。若进一步优化计算效率,提升模型在多样化数据集上的泛化能力,实现更高效的实时处理,并探索多模态融合及无监督学习方法,以减少对标注数据的依赖,则可以进一步提升CG-STVG的实际应用价值。