EclipSE: Efficient Long-range Video Retrieval using Sight and Sound-优快云博客

提出EclipSE模型，利用音频线索辅助长视频检索，相较于仅基于视频的方法，计算效率提升近3倍，参数量减少2.34倍，并在多个基准数据集上取得领先结果。

文章目录

摘要（Abstract）
引言（Introduction）
相关研究（Related Work）
EclipSE: Efficient CLIP with Sound Encoding
实验
- 数据集
- 评价指标
参考文献

paper: https://arxiv.org/pdf/2204.02874.pdf
code: https://github.com/GenjiB/ECLIPSE
author: Department of Computer Science, University of North Carolina at Chapel Hill

摘要（Abstract）

本文提出了一个用于长范围文本-视频检索的音视方法。以往的文本-视频检索大多设计用于短视频检索（5-15秒），本文的方法旨在检索分钟级的视频片段，这样就可以捕捉人类更复杂的行为。一个挑战是单纯的长视频检索方法是从长视频数据中提取出成百上千的密集帧来处理，这样计算量巨大。为了解决这个问题，本文提出了一个名为EclipSE(Efficient CLIP with Sound Encoding) 的方法，选择用简洁的音频线索取代部分视频。这些线索能够简单概括动态的音频事件，并且处理成本更低。通过增加一个统一的视听转换模块，模型能够从视频帧和音频流中捕捉互补的线索，使流行的 CLIP 模型适用于视听视频环境。比单纯的长范围视频检索方法快2.92倍，参数量也减少了2.34倍。在ActivityNet, QVHighlights, YouCook2, DiDeMo, Charades这些不同的长范围视频数据集中展示了较好的效果。

引言（Introduction）

在视频数据日益增长的推动下，过去几年在文本-视频检索方面取得了显著进展。然而，目前的视频检索系统主要被设计用于非常短的视频（5-15秒）。与此相反，大多数可以捕捉到复杂人类行为的现实世界的视频，可能持续几分钟甚至数小时。比如，假如你正在做制作华夫饼这一复杂的行为，这可能会持续几个小时。在一个场景中，当您忘记了食谱中的一些步骤时，检索一个相关的展示如何执行这些步骤的几分钟长的视频片段将会很有帮助。但是，传统的短视频检索模型将会由于他们在分析长视频上的不足而受限。因此本文结合音频和视频两个模态，旨在通过提出一种音视结合的文本-视频检索系统来解决长视频检索问题。

在先前的视觉语言方法中，CLIP【1】是最广泛采用的模型之一。最近的一些方法比如CLIP4clip【2】将CLIP扩展到视频，该方法通过独立处理单个视频帧，然后沿着时间平均这些视频帧的预测。然而，这些方法在检索长范围视频时往往是不切实际的，因为处理数百个提取到的的密集视频帧需要巨大的计算成本，如下图所示。
在这里插入图片描述
此外，虽然视频模态存储的信息丰富，但也有很高的信息冗余（即视频内容在相邻帧中往往变化不大）。相比之下，音频可以紧凑地捕获与人类动作、对象、场景和其他复杂事件相关的信息，同时处理也比原始视频更便宜。例如，考虑一下一个人在平底锅里煎鸡蛋的视频。在本