QVHIGHLIGHTS: Detecting Moments and Highlightsin Videos via Natural Language Queries

研究提出QVHIGHLIGHTS数据集,包含10,000多个视频的自然语言查询、相关时刻和显着性评分。为解决时刻检索和亮点检测任务中的局限, Moment-DETR模型被提出,这是一个端到端的转换器架构,直接预测时刻坐标和显着性分数。模型通过弱监督预训练在ASR字幕上表现出色,超越了现有的方法。

Abstract
在自然语言用户查询的情况下,从视频中检测定制的时刻和亮点是一个重要但研究不足的话题。追求这一方向的挑战之一是缺乏注解数据。为了解决这个问题,我们提出了基于查询的视频亮点(QVHIGHLIGHTS)数据集。它由1万多个YouTube视频组成,涵盖了广泛的主题,从生活方式视频中的日常活动和旅行到新闻视频中的社会和政治活动。 数据集中的每个视频都有注释。 (1)人类编写的自由形式的NL查询,(2)视频中与查询相关的时刻,以及(3)所有与查询相关的片段的五分法显著性得分。这种全面的注释使我们能够开发和评估为不同的、灵活的用户查询检测相关时刻和突出亮点的系统。 我们还为这项任务提出了一个强有力的基准,即Moment-DETR,这是一个转化器编码器-解码器模型,它将时刻检索视为一个直接的集合预测问题,将提取的视频和查询表征作为输入,并对时刻坐标和显著性分数进行端到端预测。 虽然我们的模型没有利用任何人类先验,但我们表明,与精心设计的架构相比,它的表现具有竞争力。通过使用ASR字幕的弱监督预训练,Moment-DETR的表现大大超过了以前的方法。 最后,我们介绍了Moment-DETR的几种表现和可视化。
1 Introduction
互联网视频正以前所未有的速度增长。使用户能够高效地搜索和浏览这些海量视频集合对于改善在线视频平台的用户体验至关重要。虽然在基于自然语言查询的视频搜索完整视频(即文本到视频检索 [35,36,15])领域已经做了大量工作,但返回整个视频并不总是可取的,因为它们可以相当长(例如,从几分钟到几小时)。相反,用户可能希望在视频中找到与其查询最相关的精确时刻或一目了然地查看亮点,以便他们可以轻松跳到视频的相关部分。
许多数据集 [12,6,16,14,26] 已被提出用于“时刻检索”的第一个任务——在给定用户查询的情况下定位视频中的时刻。然而,据报道,大多数数据集 [4,16] 具有强烈的时间偏差,在视频开始时出现的时刻比在结束时出现的时刻多。同时,对于每个视频查询对,所有数据集仅提供一个时刻的注释。实际上,通常有多个时刻,即视频中的多个不相交时刻,与给定的查询相关。对于“亮点检测”的第二个任务,许多数据集 [32,11,30,7] 是查询不可知的,其中检测到的亮点不会因不同的输入用户查询而改变。 [19,37] 是两个现有的数据集根据用户查询收集亮点。可是对于一小组帧或剪辑被注释([19] 中 331 秒长视频中的 20 帧或 [37] 中 60 秒视频中大约 10 秒剪辑),限制了它们准确学习和评估高光检测方法的能力。最后,虽然时刻检索和亮点检测这两个任务具有许多共同特征(例如,两者都需要学习用户文本查询和视频剪辑之间的相似性),但它们通常是分开研究的,主要是由于缺乏在单个数据集中支持这两个任务的注释.
为了解决这些问题,我们收集了 QVHIGHLIGHTS,这是一个统一的基准数据集,支持基于查询的视频时刻检索和高光检测。基于超过 10,000 个涵盖各种主题的 YouTube 视频(从日常活动和生活方式视频博客视频中的旅行到新闻视频中的社会和政治活动),我们为这两项任务收集了高质量的注释。图 1 显示了来自 QVHIGHLIGHTS 的两个示例。对于时刻检索,我们为视频中的查询提供一个或多个不相交时刻,从而能够对时刻检索方法进行更真实、准确且偏差较小(参见第 3.2 节)的评估。在带注释的时刻,我们还为每个 2 秒剪辑提供了一个五点李克特量表(从“非常好”到“非常差”)显着性/高亮度得分注释。这种全面的显着性注释为设计和评估基于查询的视频高光检测方法提供了更多空间。
接下来,为了为这项任务提供强大的初始模型,我们从最近的工作中汲取灵感,例如用于对象检测的 DETR [3],并提出了 Moment-DETR,这是一种端到端的转换器编码器-解码器架构,将时刻检索视为直接设置预测问题。使用这种方法,我们有效地消除了对矩检索方法中常见的任何手动设计的预处理(例如,proposalgeneration)或后处理(例如,非最大抑制)步骤的需要。我们进一步在编码器输出之上添加了一个显着性排名目标,用于高亮检测。虽然 Moment-DETR 在其设计之前没有对任何人类进行编码,但我们的实验表明,与高度工程化的架构相比,它仍然具有竞争力。此外,通过 ASR 字幕的额外弱监督预训练,Moment-DETR 大大优于这些强大的方法。最后,我们还提供了详细的消融和可视化,以帮助了解 Moment-DETR 的内部工作原理。
总体而言,我们的贡献有 3 个方面:(i)我们收集了包含超过 10,000 个视频的 QVHIGHLIGHTS 数据集,并用人工编写的自然语言查询、相关时刻和显着性评分进行了注释。 (ii) 我们建议 Moment-DETR 作为我们数据集的强大基线。通过弱监督预训练,Moment-DETR 大大优于几个基线。 (iii) 我们提供了详细的数据集分析、模型消融和可视化。我们希望我们的工作能够激励和鼓励未来朝着这个重要方向的工作。
在这里插入图片描述
2 Related Work
数据集和任务。时刻检索 [12,6,16] 需要从给定自然语言查询的视频中定位时刻。各种数据集 [12,6,16,14,26] 已被提议

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值