3D开放世界Agent新突破!字节Lumine在《原神》中展现人类级效率

关键词:通用智能体(Generalist Agent)、3D开放世界(3D Open World)、视觉语言模型(Vision-Language Model)、自适应推理(Hybrid Thinking)、零样本泛化(Zero-Shot Generalization)、实时推理(Real-Time Inference)

一、导读

在人工智能领域,开发能够在复杂3D开放世界中像人类一样感知、推理和行动的通用智能体一直是一个重要目标。然而,现有方法往往局限于封闭环境,难以处理开放世界的多样性和长时任务,同时面临实时性、多模态理解和长期规划的挑战。

为了解决这些问题,本论文提出了Lumine模型,它基于视觉语言模型构建,能够通过像素输入实时生成键盘鼠标操作,并自适应地进行推理。实验表明,Lumine在《原神》中完成了长达五小时的主线任务,并成功零样本泛化到其他游戏中,展现了强大的通用性。

原文、这里3D开放世界Agent新突破!字节Lumine在《原神》中展现人类级效率

二、论文基本信息

  • 论文标题:Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

  • 作者姓名与单位:Weihao Tan, Xiangyang Li, Yunhao Fang等(ByteDance Seed、Nanyang Technological University、Peking University)

  • 代码链接:https://www.lumine-ai.org/

  • 论文链接:https://arxiv.org/pdf/2511.08892

三、主要贡献与创新

  1. 提出首个能在3D开放世界中实时完成小时级长时任务的通用智能体。

  2. 设计自适应推理机制,仅在必要时生成推理内容,平衡效率与决策质量。

  3. 使用简洁的键盘鼠标动作表示法,无需修改模型结构即可实现高效控制。

  4. 构建多阶段训练流程,从预训练到推理微调,逐步提升模型能力。

  5. 实现零样本跨游戏泛化,在未训练游戏中完成复杂任务。

  6. 优化实时推理延迟,通过动作分块和推测解码将延迟降低25.3倍。

原、文指路👉更多大模型前沿资讯+资料https://mp.weixin.qq.com/s/YSurE_ms3X92qLWNqtzx0w

四、研究方法与原理

Lumine的核心思路是让智能体通过视觉输入感知环境,自适应地生成推理和动作,实现端到端的实时控制。

五、实验设计与结果分析

  • 实验设置:使用《原神》作为主要环境,构建包含141个任务的基准,分为收集、战斗、NPC交互和谜题四类,难度包括简单、困难和未见任务。评测指标为任务成功率,模型在限定角色和装备下运行。

  • 对比实验:在简单任务中,Lumine-Instruct-NonHis达到超过80%成功率,显著优于GPT-5、Gemini 2.5 Pro等基线模型(对应论文图10)。在长时任务中,Lumine-Thinking以56分钟完成《原神》第一幕,接近人类专家水平(对应表5)。

  • 可视化对比:论文图17展示了智能体在任务中的地理轨迹和完成时间,直观显示其导航效率。

  • 消融实验:图14和图15比较了不同历史上下文长度对性能的影响,显示10帧上下文时效果最佳;图11和表5还对比了有无预训练和推理阶段的性能差异,证明多阶段训练的必要性。

六、论文结论与评价

总结Lumine通过视觉语言模型和自适应推理,在3D开放世界中实现了长时任务完成跨游戏泛化,实验证明其能在《原神》中高效执行任务,并在未训练的《鸣潮》和《崩坏:星穹铁道》中零样本适应。评价这项研究为通用智能体开发提供了可行方案,尤其在游戏测试和自动化领域具有应用潜力。优点包括高效的实时控制强大的泛化能力,但缺点在于长期记忆有限、战斗熟练度不足,且推理延迟可能影响高时效场景。未来可探索更复杂的内存机制和在线学习,以进一步提升性能。

原文、这里3D开放世界Agent新突破!字节Lumine在《原神》中展现人类级效率https://mp.weixin.qq.com/s/YSurE_ms3X92qLWNqtzx0w

往期推荐 

强烈推荐!多模态融合顶会新成果!CVPR/AAAI 高分成果,这波思路必须学!

OCR “去幻觉” 新纪元!通义点金 OCR-R1 搞定模糊盖章+跨页表格,攻克 OCR 三大痛点!

NeurIPS'2025高分入选!扩散模型+Transformer,效率与质量双线飙升!

杀疯了!2025 最新Agent Memory顶会论文,拿捏发文密码!

ICCV 2025|FrDiff:频域魔法+扩散模型暴力去雾,无监督性能刷爆榜单!

NeurIPS 2025 | 港科大&上交大HoloV:多模态大模型“瘦身”新突破,剪枝88.9%视觉Token,性能几乎无损

太牛了!北大:Unified-GRPO让理解生成正反馈,超 GPT-4o-Image

越来越感觉「大模型+强化学习」是未来! ICLR/ICML/AAAI 最新论文整理,这波组合太能打了!

推荐系统 “效率革命”!字节OneTrans:统一 Transformer 融序列建模 + 特征交互,训练推理双提速

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值