InternVid 是一个开源的大规模视频-文本数据集,旨在促进视频理解和生成任务的发展,由上海人工智能实验室与南京大学、中国科学院等单位联合发布,相关的工作已经被ICLR2024接收。它包含超过 700 万个视频,总时长近 76 万小时,并附带详细的文本描述。InternVid 的发布将推动文本-视频的多模态理解和生成的进步,并为相关研究和应用提供新的机遇,包含以下特点:
-
规模庞大:InternVid 是目前公开的最大的视频-文本数据集之一,包含超过 700 万个视频,总时长近 76 万小时。
-
内容丰富: 视频内容涵盖日常生活、体育运动、娱乐、教育等多个领域,能够满足不同研究和应用的需求。
-
高质量: 视频和文本都经过精心挑选和处理,保证了数据集的高质量,提供了丰富的描述,CLIP-SIM,视频美学分数。
InternVid 可用于以下任务:
-
视频理解: 视频分类、视频检索、视频描述生成、视频摘要生成等。
-
视频生成: 视频编辑、视频合成、视频特效等。
-
多模态学习: 视频-文本语义匹配、视频-文本检索、视频-文本生成等。

论文:
https://arxiv.org/abs/2307.06942
开源链接:
https://github.com/OpenGVLab/InternVideo/tree/main/Data/InternVid
HuggingFace:
https://huggingface.co/datasets/OpenGVLab/InternVid
InternVid的出发点
学习可迁移的视频-文本表示对于视频理解至关重要,尤其是在自动驾驶、智能监控、人机交互和视觉搜索等实际应用中。近期,OpenAI发布的Sora模型在文生视频领域取得了显著进展。Sora不仅打破了视频连贯性的局限,还在多角度镜头切换中保持一致性,并展示出对现实世界逻辑的深刻理解。这一突破为视频-语言领域的多模态对比学习提供了新的可能性,尽管目前Sora尚未开放给公众使用,但其在视频生成领域的GPT-3时刻,预示着通用人工智能的实现可能比预期来得更快。
但是限制住目前探索的一个关键原因是缺乏用于大规模预训练的高质量视频-语言数据集。当前的研究依赖于如HowTo100M [1]、HD-VILA [2] 和 YT-Temporal [3, 4] 等数据集,其文本是使用自动语音识别(ASR)生成的。尽管这些数据集规模庞大,但它们在视频和相应文本描述之间的语义相关性通常较低。这类的数据一方面不太符合文

最低0.47元/天 解锁文章
1145

被折叠的 条评论
为什么被折叠?



