InternVid：用于多模态视频理解与生成的大规模视频-文本数据集 | ICLR Spotlight

最新推荐文章于 2025-04-30 18:09:55 发布

原创

最新推荐文章于 2025-04-30 18:09:55 发布 · 1.4k 阅读

·

33

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #音视频 #深度学习

InternVid 是一个开源的大规模视频-文本数据集，旨在促进视频理解和生成任务的发展，由上海人工智能实验室与南京大学、中国科学院等单位联合发布，相关的工作已经被ICLR2024接收。它包含超过 700 万个视频，总时长近 76 万小时，并附带详细的文本描述。InternVid 的发布将推动文本-视频的多模态理解和生成的进步，并为相关研究和应用提供新的机遇，包含以下特点：

规模庞大:InternVid 是目前公开的最大的视频-文本数据集之一，包含超过 700 万个视频，总时长近 76 万小时。
内容丰富: 视频内容涵盖日常生活、体育运动、娱乐、教育等多个领域，能够满足不同研究和应用的需求。
高质量: 视频和文本都经过精心挑选和处理，保证了数据集的高质量，提供了丰富的描述，CLIP-SIM，视频美学分数。

InternVid 可用于以下任务：

视频理解: 视频分类、视频检索、视频描述生成、视频摘要生成等。
视频生成: 视频编辑、视频合成、视频特效等。
多模态学习: 视频-文本语义匹配、视频-文本检索、视频-文本生成等。

论文：

https://arxiv.org/abs/2307.06942

开源链接:

https://github.com/OpenGVLab/InternVideo/tree/main/Data/InternVid

HuggingFace:

https://huggingface.co/datasets/OpenGVLab/InternVid

InternVid的出发点

学习可迁移的视频-文本表示对于视频理解至关重要，尤其是在自动驾驶、智能监控、人机交互和视觉搜索等实际应用中。近期，OpenAI发布的Sora模型在文生视频领域取得了显著进展。Sora不仅打破了视频连贯性的局限，还在多角度镜头切换中保持一致性，并展示出对现实世界逻辑的深刻理解。这一突破为视频-语言领域的多模态对比学习提供了新的可能性，尽管目前Sora尚未开放给公众使用，但其在视频生成领域的GPT-3时刻，预示着通用人工智能的实现可能比预期来得更快。

但是限制住目前探索的一个关键原因是缺乏用于大规模预训练的高质量视频-语言数据集。当前的研究依赖于如HowTo100M [1]、HD-VILA [2] 和 YT-Temporal [3, 4] 等数据集，其文本是使用自动语音识别（ASR）生成的。尽管这些数据集规模庞大，但它们在视频和相应文本描述之间的语义相关性通常较低。这类的数据一方面不太符合文

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。