Minecraft也能当世界模型?

能,怎么就不能呢?Ginie不也是一样的吗

你要的是一个预测动作带来的state的改变,又不是要画面

Image

其实我也比较倾向于世界模型应该能感知真实物理世界的一些定理,比如牛顿三大定律啥的,后来一想牛顿三大定律也是在一定场景的有效解释而已,也不是真正的“天理”,所以我对世界模型的定义也就释怀了,只要能解释清楚就行。

我以前玩过MS 得Muse,这俩玩意严格来说一样的

Image

简单说就是拿之前的帧和你输入给游戏的动作指令,来预测这个指令实施以后后面帧的图像

我们就把这个mineworld叫矿世界就算了

Image

矿世界(MineWorld)通过以下核心技术和创新点在Minecraft中实现了实时交互式世界模型:

基于视觉-动作自回归Transformer的模型架构

矿世界的核心是一个由视觉-动作自回归Transformer驱动的模型,这和GPT4o一样也是纯自回归啊,也没用diffusion,但是这玩意到也好解释,游戏画面就那么几样,它也没啥可泛化的,用AR完全没毛病。该模型通过将游戏场景(视觉状态)和用户的动作作为配对的输入,并生成随后的新游戏场景。

离散Token表示

为了让Transformer能够处理视觉和动作信息,矿世界采用了不同的Tokenizer将它们转换为离散的Token ID

    • 视觉Tokenizer

      使用经过微调的VQ-VAE(向量量化变分自编码器)作为视觉Tokenizer,将每个游戏状态(视频帧)独立地压缩成一系列离散的Token。该Tokenizer实现了16×的空间压缩率。

    • 动作Tokenizer

      将Minecraft中的动作分解为离散的Token。连续的鼠标移动(控制视角)被量化为离散的bin。离散的动作(如前进、攻击)被分类为7个互斥的类别,每个类别用一个唯一的Token表示,也就是所有的操作,被组合成7个互斥的action,此外,还使用了特殊的起始和结束Token来标记动作序列的边界。每个动作最终被表示为一个包含11个Token的序列。

    • 游戏状态和动作的Token被交错拼接作为Transformer模型的输入。

Image

自回归训练目标

模型采用传统的自回归解码器进行训练,通过预测序列中的下一个Token来学习游戏状态的丰富表示以及状态和动作之间的条件关系。模型同时学习了作为策略模型(预测动作)和世界模型(预测未来状态)的能力,这个世界模型就是这么来的,所以我也叫它包括muse,还有ginie甚至李飞飞的那个,都叫做有限世界模型。

新颖的并行解码算法

  • 为了实现实时交互,矿世界开发了一种并行的解码算法。与标准的自回归解码逐个预测Token不同,该方法利用空间相邻Token之间的依赖性,同时预测同一帧中空间冗余的Token组

    • 这种方法显著加速了Transformer的自回归生成过程,实现了比标准自回归解码超过3倍的加速,AR不是慢吗,difussion快能并行,但是这个AR一次吐好多个token,所以页能客观上快一点。

    • 配备该解码算法,矿世界能够生成每秒4到7帧,使得与游戏玩家的实时交互成为可能。矿世界将“实时”定义为能够跟上业余玩家(>2 FPS,约150 APM)甚至专业玩家(>5 FPS,约250-300 APM)的动作速度。

    • 为了解决并行解码可能带来的性能下降问题,矿世界还对自回归预训练模型进行了微调,将标准的因果注意力机制替换为与并行解码算法对齐的Mask。实验表明,微调后模型在保持生成质量的同时,实现了实时交互的频率。

      新的评估指标

    • 为了评估世界模型的性能,矿世界提出了新的评估指标,这些指标不仅评估视觉质量(如FVD、PSNR、LPIPS、SSIM),还特别关注动作跟随能力(Controllability)

    • 为了评估Controllability,矿世界利用一个逆动力学模型(IDM),该模型从连续生成的帧中预测执行的动作。

    • 通过比较IDM预测的动作和作为条件输入的真实动作之间的准确率,来反映生成模型对控制信号的遵循程度。

    • 针对离散动作,矿世界将动作分组为不同的分类任务(三元分类和二元分类),并使用精确率(Precision)、召回率(Recall)和F1分数等分类指标来评估Controllability。实验表明,这些基于分类的评估指标与人类的评估结果具有显著的正相关性。

    • 对于摄像机移动,则计算预测的和真实摄像机角度bin之间的L1损失

说来说去,Mineworld这个模型就会死通过将游戏状态和动作Token化、利用Transformer模型学习其联合表示、引入并行解码算法以加速生成,并设计新的评估指标来衡量Controllability,在Minecraft中构建了一个实时、高效且可控的交互式世界模型,但是还是和muse一样的,你可以交互,但是不是玩游戏,而是基于你的输入来预测后面的帧

有兄弟说,这什么破玩意啊,我用你预测后面的帧啊,我页玩不了?

你young 了,也很naive

你现在看这它预测的是帧,其实它最后是玩,能理解你的动作,也就是

说,后面的打法就是用这个来玩RL,能深刻理解你action带来的reward,总不能乱跑吧,所以说来说去做后还是玩RL去了。。。

例如,它可以作为强化学习系统中的规划器。Agent可以在 MineWorld 这样的模型中进行安全探索,预测不同行动的后果,从而学习更优的策略,然后再将学到的策略应用到真实环境中。

或者咱们延展一点,如果这东西画面够好一点,比如极品飞车,通过 这么玩,研究人员可以设计和测试不同的规划算法,而无需在真实的 自驾场景进行耗时且可能危险的实验(但是这个的前提就是要有我说的对真实世界物理引擎的理解了,或者我们说仿真,否则,走任何trajectory都是无意义的MDP)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值