论文标题
CoVR: Learning Composed Video Retrieval from Web Video Captions 组合视频检索:从网络视频字幕中学习
论文链接
CoVR: Learning Composed Video Retrieval from Web Video Captions论文下载
论文作者
Lucas Ventura, Antoine Yang, Cordelia Schmid, Gül Varol
内容简介
本文提出了一种新的组合视频检索(CoVR)方法,旨在通过同时使用图像和文本查询来检索相关视频。传统的合成图像检索(CoIR)方法通常依赖于手动标注的数据集,这在规模化时面临挑战。为了解决这一问题,作者提出了一种自动生成三元组的方法,该方法利用视频-字幕对生成图像-文本-视频三元组。通过对WebVid2M数据集的应用,作者构建了包含160万个三元组的WebVid-CoVR数据集,并引入了一个新的CoVR基准测试集。实验结果表明,在WebVid-CoVR数据集上训练的CoVR模型在零样本设置下能够有效迁移到CoIR任务,并在CIRR和FashionIQ基准上取得了最先进的结果。
分点关键点
-
自动生成三元组的方法
- 本文提出了一种自动化的方法,通过挖掘具有相似字幕的视频对,利用大型语言模型生成描述视频差异的修改文本,从而构建视频-文本-视频三元组。这种方法避免了手动标注的高成本,具有良好的扩展性。
-
WebVid-CoVR数据集
- 通过对WebVid2M数据集的处理,生成了包含160万个CoVR三元组的WebVid-CoVR数据集。该数据集不仅规模庞大,而且具有多样性,包含131,000个不同的视频和467,000个不同的修改文本。
-
CoVR模型的训练与评估
- 在WebVid-CoVR数据集上训练的CoVR模型在零样本和微调设置下表现出色,能够有效迁移到CoIR任务,并在CIRR和FashionIQ基准测试中取得了最先进的结果。这表明该模型在多模态检索任务中的有效性。
-
新基准测试集的引入
- 本文还引入了一个手动标注的评估集WebVid-CoVR-Test,用于评估CoVR模型的性能。通过与标准基线的比较,验证了模型的有效性和可靠性。
- 本文还引入了一个手动标注的评估集WebVid-CoVR-Test,用于评估CoVR模型的性能。通过与标准基线的比较,验证了模型的有效性和可靠性。
论文代码
代码链接:https://imagine.enpc.fr/~ventural/covr
中文关键词
- 组合视频检索
- 自动生成三元组
- WebVid-CoVR数据集
- 多模态检索
- 零样本学习
- 语言模型
AAAI论文合集:
希望这些论文能帮到你!如果觉得有用,记得点赞关注哦~ 后续还会更新更多论文合集!!