本文是LLM系列文章,针对《CLIP-VIP: ADAPTING PRE-TRAINED IMAGE-TEXT MODEL TO VIDEO-LANGUAGE ALIGNMENT》的翻译。
摘要
像CLIP这样的预先训练的图像文本模型已经证明了从大规模网络收集的图像文本数据中学习的视觉语言表示的强大能力。鉴于众所周知的视觉特征,有一些工作将图像表示转移到视频域,并取得了良好的效果。然而,使图像文本预训练模型适应视频文本预训练(即后预训练)还没有显示出显著的优势。在本文中,我们通过提出和解决两个问题来应对这一挑战:1)阻碍预训练后CLIP提高视频文本任务性能的因素是什么,以及2)如何减轻这些因素的影响。通过一系列的对比实验和分析,我们发现数据规模和语言来源之间的领域差距有很大的影响。通过这些观察,我们提出了一种在CLIP的基础上配备视频代理机制的多源跨模态学习方法,即CLIP-ViP。大量的结果表明,我们的方法大大提高了CLIP在视频文本检索中的性能。我们的模型在各种数据集上实现了最先进的结果,包括MSR-VTT、DiDeMo、LSMDC和ActivityNet。我们在https://github.com/microsoft/XPretrain/tree/main/CLIP-ViP开放了我们的代码与预训练模型CLIP-VIP。
1 引言
2 相关工作
3 前言分析
4 方法
5 实验
6 结论
在本文中,
本文探讨了CLIP模型在视频文本任务中的应用,提出CLIP-ViP,通过视频代理机制和多源跨模态学习提升视频文本检索性能,实现在多个数据集上的最优结果。
已下架不支持订阅
1420

被折叠的 条评论
为什么被折叠?



