ICCV2021- 牛津大学新的预训练视频文本数据集WebVid-2M,设计用于端到端检索的联合视频和图像编码器!代码已开源!...

本文介绍了牛津大学的研究成果,提出了一种端到端训练的双编码器模型,用于视频和图像文本检索。该模型基于Transformer结构,能处理大规模数据集,包括新发布的WebVid-2M,包含200万视频和文本对。实验显示模型在多个视频检索基准上达到SOTA性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

关注公众号,发现CV技术之美

 写在前面

视频文本检索的挑战包括视觉网络结构的设计训练数据的性质 ,因为可用的大规模视频文本训练数据集 (例如HowTo100M) 是noisy的,因此只能通过大量的计算才能达到竞争力的性能。

作者在本文中解决了这两个挑战,并提出了一种端到端可训练模型,该模型旨在利用大规模图像和视频字幕数据集。本文的模型是对最近的ViT和Timesformer结构的修改和扩展,并且包括在空间和时间上的注意力。

该模型是灵活的,可以独立或结合在图像和视频文本数据集上进行训练。模型将图像视为视频的frozen snapshots开始,然后在接受视频数据集训练时逐渐学会attend到时间上下文。

此外,作者还提供了一个新的视频文本预训练数据集WebVid-2M ,包括200万多个视频,这些视频带有从互联网上抓取的弱字幕。尽管对数据集的训练要小一个数量级,但实验表明,这种方法在标准的下游视频检索基准 (包括msr-vtt,MSVD,DiDeMo和LSMDC) 上产生了SOTA的结果。

 1. 论文和代码地址

af833f8ad212909b039569d8a8dd76a9.png

Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval

论文:https://arxiv.org/abs/2104.00650

代码:https://github.com/m-bain/frozen-in-time

 2. Motivation

视觉语言任务的快速发展主要归功于三个方面的改进:新的神经网络结构 (例如,用于文本和视觉输入的Transformer);新的大规模数据集 ;能够处理标签噪声的新损失函数 。但是,它们的发展主要在两个独立的赛道上进行: 一个用于图像,一个用于视频。

两者之间唯一的共同联系是,视频网络通常是通过在图像数据集上预训练图像网络来初始化的。考虑到图像和视频在多个任务上传达的信息重叠࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值