AI生成未来 | 字节提出VideoWorld!从自回归视频生成模型获取世界知识!

本文来源公众号“AI生成未来”,仅用于学术分享,侵权删,干货满满。

原文链接:字节提出VideoWorld!从自回归视频生成模型获取世界知识!

【题外话】大年初一新年好!给大家拜年了!祝大家前(钱)途无量!

论文名:VideoWorld: ExploringKnowledge Learning from Unlabeled Videos

论文链接:https://arxiv.org/pdf/2501.09781

开源代码:https://maverickren.github.io/VideoWorld.github.io/

图片

导读

下一个标记预测训练范式赋予了大型语言模型(LLMs)显著的世界知识和智能,使它们能够帮助解决需要推理、提前规划和决策的复杂任务。然而,仅靠语言无法完全捕捉所有形式的知识或涵盖现实世界中的大量信息。在自然界中,生物体主要通过视觉信息获取知识,而不是仅仅依赖语言。例如,大猩猩和其他灵长类动物主要通过视觉观察学习觅食和社交互动等重要技能,模仿成年行为而不依赖语言。

简介

本研究探讨了深度生成模型是否能够仅从视觉输入中学习复杂知识,与当前主要关注基于文本的模型(如大型语言模型)形成对比。我们开发了VideoWorld,一个基于未标注视频数据训练的自回归视频生成模型,并在基于视频的围棋和机器人控制任务中测试其知识获取能力。我们的实验揭示了两个关键发现:(1) 仅通过视频训练提供了足够的信息来学习知识,包括规则、推理和规划能力;(2) 视觉变化的表示对于知识获取至关重要。为了提高这一过程的效率和效果,我们引入了潜在动态模型(LDM)作为VideoWorld的关键组件。值得注意的是,VideoWorld在Video-GoBench中达

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值