本文来源公众号“AI生成未来”,仅用于学术分享,侵权删,干货满满。
原文链接:字节提出VideoWorld!从自回归视频生成模型获取世界知识!
【题外话】大年初一新年好!给大家拜年了!祝大家前(钱)途无量!
论文名:VideoWorld: ExploringKnowledge Learning from Unlabeled Videos
论文链接:https://arxiv.org/pdf/2501.09781
开源代码:https://maverickren.github.io/VideoWorld.github.io/
导读
下一个标记预测训练范式赋予了大型语言模型(LLMs)显著的世界知识和智能,使它们能够帮助解决需要推理、提前规划和决策的复杂任务。然而,仅靠语言无法完全捕捉所有形式的知识或涵盖现实世界中的大量信息。在自然界中,生物体主要通过视觉信息获取知识,而不是仅仅依赖语言。例如,大猩猩和其他灵长类动物主要通过视觉观察学习觅食和社交互动等重要技能,模仿成年行为而不依赖语言。
简介
本研究探讨了深度生成模型是否能够仅从视觉输入中学习复杂知识,与当前主要关注基于文本的模型(如大型语言模型)形成对比。我们开发了VideoWorld,一个基于未标注视频数据训练的自回归视频生成模型,并在基于视频的围棋和机器人控制任务中测试其知识获取能力。我们的实验揭示了两个关键发现:(1) 仅通过视频训练提供了足够的信息来学习知识,包括规则、推理和规划能力;(2) 视觉变化的表示对于知识获取至关重要。为了提高这一过程的效率和效果,我们引入了潜在动态模型(LDM)作为VideoWorld的关键组件。值得注意的是,VideoWorld在Video-GoBench中达