InternVid:用于多模态视频理解与生成的大规模视频-文本数据集 | ICLR Spotlight

InternVid 是一个开源的大规模视频-文本数据集,旨在促进视频理解和生成任务的发展,由上海人工智能实验室与南京大学、中国科学院等单位联合发布,相关的工作已经被ICLR2024接收。它包含超过 700 万个视频,总时长近 76 万小时,并附带详细的文本描述。InternVid 的发布将推动文本-视频的多模态理解和生成的进步,并为相关研究和应用提供新的机遇,包含以下特点:

  • 规模庞大:InternVid 是目前公开的最大的视频-文本数据集之一,包含超过 700 万个视频,总时长近 76 万小时。

  • 内容丰富: 视频内容涵盖日常生活、体育运动、娱乐、教育等多个领域,能够满足不同研究和应用的需求。

  • 高质量: 视频和文本都经过精心挑选和处理,保证了数据集的高质量,提供了丰富的描述,CLIP-SIM,视频美学分数。

InternVid 可用于以下任务:

  • 视频理解: 视频分类、视频检索、视频描述生成、视频摘要生成等。

  • 视频生成: 视频编辑、视频合成、视频特效等。

  • 多模态学习: 视频-文本语义匹配、视频-文本检索、视频-文本生成等。

论文:

https://arxiv.org/abs/2307.06942

开源链接:

https://github.com/OpenGVLab/InternVideo/tree/main/Data/InternVid

HuggingFace:

https://huggingface.co/datasets/OpenGVLab/InternVid


一 InternVid的出发点

学习可迁移的视频-文本表示对于视频理解至关重要,尤其是在自动驾驶、智能监控、人机交互和视觉搜索等实际应用中。近期,OpenAI发布的Sora模型在文生视频领域取得了显著进展。Sora不仅打破了视频连贯性的局限,还在多角度镜头切换中保持一致性,并展示出对现实世界逻辑的深刻理解。这一突破为视频-语言领域的多模态对比学习提供了新的可能性,尽管目前Sora尚未开放给公众使用,2但其在视频生成领域的GPT-3时刻,预示着通用人工智能的实现可能比预期来得更快。

但是限制住目前探索的一个关键原因是缺乏用于大规模预训练的高质量视频-语言数据集。当前的研究依赖于如HowTo100M [1]、HD-VILA [2] 和 YT-Temporal [3, 4] 等数据集,其文本是使用自动语音识别(ASR)生成的。尽管这些数据集规模庞大,但它们在视频和相应文本描述之间的语义相关性通常较低。这类的数据一方面不太符合文生视频等生成任务的需要,另一方面提高这种相关性(例如,通过将视频与描述对齐以改善它们的匹配度)显著有利于下游任务,如视频检索和视频问答。

图片

为了解决扩大视频语言建模规模的挑战,同时保持高视频-文本对应性,我们提出了一个大规模的以视频为中心的数据集InternVid,见图1。ASR转录几乎没有描述视频中的视觉元素,而生成的描述则涵盖有更多的视觉内容。该数据集包含高度相关的视频-文本对,包括超过700万视频,总计760,000小时,产生234M个视频片段,涵盖16种场景和约6,000个动作描述。为了提高视频-文本匹配度,我们采用了多尺度方法生成描述。在粗略尺度上,我们对每个视频的中间帧进行描述,并使用描述作为视频描述。在精细尺度上,我们生成逐帧描述,并用语言模型对它们进行总结。

通过InternVid,我们学习了一个视频表示模型ViCLIP,实现了较强的零样本性能。对于文生视频,我们筛选了一个具有美学的子集InternVid-Aes,并涵盖1800万个视频片段。与WebVid-10M[5]一起,InternVid可以显著提高基于diffusion的视频生成模型的生成能力。

资源下载链接为: https://pan.xunlei.com/s/VOZ38iAGzu4iERAgetIwWXh9A1?pwd=jzbu 多模态大型语言模型(MLLMs)在低级计算机视觉任务中的表现如何? Q-Bench 由南洋理工大学、上海交通大学及商汤科技研究院团队联合提出,是针对通用基础模型的低级视觉基准测试工具,包含三大核心领域:感知(A1)、描述(A2)评估(A3)。其中,为支撑感知(A1)描述(A2)任务,团队分别构建了 LLVisionQA 和 LLDescribe 两个基准数据集,目前这两项任务已开放基于提交的评估通道,具体提交细则可参考相关指引。 在评估(A3)任务方面,因采用公开数据集,团队提供了可适用于任意多模态大型语言模型的抽象评估代码,供使用者自行测试。此外,针对 Q-Bench-A1 任务(含多项选择题),团队已将其转换为 Hugging Face(HF)格式数据集,支持通过 API 自动下载使用,具体可参考 Q-Bench(单图像)和 Q-Bench2(图像对)的相关说明。 更新动态显示:2024年8月8日,Q-Bench+(又称 Q-Bench2)中的低级视觉比较任务部分已被 TPAMI 期刊接收,欢迎使用者通过 Q-bench+_Dataset 测试自身的多模态大型语言模型;2024年8月1日,Q-Bench 已在 VLMEvalKit 平台上线,使用者可通过单条命令测试各类大型语言模型(如 gpt-4-vision-preview、gemini-pro-vision、qwen-vl-plus、qwen-vl-max 等)。 若您认为本研究有参考价值,欢迎在相关工作中引用该论文(ICLR2024 亮点论文),更多详情可访问项目主页。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值