一、背景
本文系个人观点:错漏在所难免,仅供参考
北京时间 1 月 12 日,DeepMind 官方推特发文,正式官宣 DreamerV3,这是首个能在游戏「我的世界」(Minecraft) 中不参考人类数据,就能从头开始收集钻石的通用算法,解决了 AI 领域中的又一重要挑战。英伟达 AI 科学家 Jim Fan 表示,和 AlphaGo 下围棋比,我的世界任务数量是无限的,环境变化是无限的,知识也是有隐藏信息的。
早在 2019 年夏天,Minecraft的开发公司就提出了「钻石挑战」,悬赏可以在游戏里找钻石的 AI 算法,直到 NeurIPS 2019 上,在提交的 660 多份参赛作品中,没有一个 AI 能胜任这项任务。
但 DreamerV3 的出现改变了这一现状,钻石是一项高度组合和长期的任务,需要复杂的探索和规划,新算法能在没有任何人工数据辅助的情况下收集钻石。或许效率还有很大改进空间,但 AI 智能体现在可以从头开始学习收集钻石这一事实本身,是一个重要的里程碑。
参考:
DeepMind 发布强化学习通用算法 DreamerV3,AI 成精自学捡钻石
DreamerV3 由 3 个从回放经验 (replayed experience) 中同时训练,且不共享梯度的神经网络组成:
1、world model:预测潜在动作的未来结果
2、critic:判断每种情况的 value
3、actor:学习如何使有价值的情况成为可能

从之前下围棋的Alphazero到现在Minecraft中挖钻石的DreamerV3,其技术发展脉络是怎样的?相互之间是什么联系呢?

DeepMind的DreamerV3算法首次在无需人类数据的情况下学会在Minecraft中收集钻石,展示出强大的探索和规划能力。这一进展涉及强化学习、世界模型、批评者和演员组件,与通用AI模型相呼应。Alphazero在围棋领域的成功也基于类似原理,通过世界模型表示游戏状态,批评者加速网络收敛。
最低0.47元/天 解锁文章
738

被折叠的 条评论
为什么被折叠?



