一、导读

在人工智能领域,开发能够在复杂3D开放世界中像人类一样感知、推理和行动的通用智能体一直是一个重要目标。然而,现有方法往往局限于封闭环境,难以处理开放世界的多样性和长时任务,同时面临实时性、多模态理解和长期规划的挑战。
为了解决这些问题,本论文提出了Lumine模型,它基于视觉语言模型构建,能够通过像素输入实时生成键盘鼠标操作,并自适应地进行推理。实验表明,Lumine在《原神》中完成了长达五小时的主线任务,并成功零样本泛化到其他游戏中,展现了强大的通用性。
二、论文基本信息
-
论文标题:Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds
-
作者姓名与单位:Weihao Tan, Xiangyang Li, Yunhao Fang等(ByteDance Seed、Nanyang Technological University、Peking University)
-
代码链接:https://www.lumine-ai.org/
-
论文链接:https://arxiv.org/pdf/2511.08892
三、主要贡献与创新
-
提出首个能在3D开放世界中实时完成小时级长时任务的通用智能体。
-
设计自适应推理机制,仅在必要时生成推理内容,平衡效率与决策质量。
-
使用简洁的键盘鼠标动作表示法,无需修改模型结构即可实现高效控制。
-
构建多阶段训练流程,从预训练到推理微调,逐步提升模型能力。
-
实现零样本跨游戏泛化,在未训练游戏中完成复杂任务。
-
优化实时推理延迟,通过动作分块和推测解码将延迟降低25.3倍。
原、文指路👉更多大模型前沿资讯+资料
https://mp.weixin.qq.com/s/YSurE_ms3X92qLWNqtzx0w
四、研究方法与原理
Lumine的核心思路是让智能体通过视觉输入感知环境,自适应地生成推理和动作,实现端到端的实时控制。

五、实验设计与结果分析
-
实验设置:使用《原神》作为主要环境,构建包含141个任务的基准,分为收集、战斗、NPC交互和谜题四类,难度包括简单、困难和未见任务。评测指标为任务成功率,模型在限定角色和装备下运行。
-
对比实验:在简单任务中,Lumine-Instruct-NonHis达到超过80%成功率,显著优于GPT-5、Gemini 2.5 Pro等基线模型(对应论文图10)。在长时任务中,Lumine-Thinking以56分钟完成《原神》第一幕,接近人类专家水平(对应表5)。

-
可视化对比:论文图17展示了智能体在任务中的地理轨迹和完成时间,直观显示其导航效率。

-
消融实验:图14和图15比较了不同历史上下文长度对性能的影响,显示10帧上下文时效果最佳;图11和表5还对比了有无预训练和推理阶段的性能差异,证明多阶段训练的必要性。



六、论文结论与评价
总结Lumine通过视觉语言模型和自适应推理,在3D开放世界中实现了长时任务完成和跨游戏泛化,实验证明其能在《原神》中高效执行任务,并在未训练的《鸣潮》和《崩坏:星穹铁道》中零样本适应。评价这项研究为通用智能体开发提供了可行方案,尤其在游戏测试和自动化领域具有应用潜力。优点包括高效的实时控制和强大的泛化能力,但缺点在于长期记忆有限、战斗熟练度不足,且推理延迟可能影响高时效场景。未来可探索更复杂的内存机制和在线学习,以进一步提升性能。
原文、这里3D开放世界Agent新突破!字节Lumine在《原神》中展现人类级效率
https://mp.weixin.qq.com/s/YSurE_ms3X92qLWNqtzx0w
往期推荐
强烈推荐!多模态融合顶会新成果!CVPR/AAAI 高分成果,这波思路必须学!
OCR “去幻觉” 新纪元!通义点金 OCR-R1 搞定模糊盖章+跨页表格,攻克 OCR 三大痛点!
NeurIPS'2025高分入选!扩散模型+Transformer,效率与质量双线飙升!
杀疯了!2025 最新Agent Memory顶会论文,拿捏发文密码!
ICCV 2025|FrDiff:频域魔法+扩散模型暴力去雾,无监督性能刷爆榜单!
NeurIPS 2025 | 港科大&上交大HoloV:多模态大模型“瘦身”新突破,剪枝88.9%视觉Token,性能几乎无损
太牛了!北大:Unified-GRPO让理解生成正反馈,超 GPT-4o-Image


497

被折叠的 条评论
为什么被折叠?



