腾讯混元Voyager开源:开启空间智能新纪元,原生3D重建技术突破行业瓶颈
2025年9月2日,腾讯混元正式发布并开源其3D世界模型系列的最新力作——HunyuanWorld-Voyager(以下简称混元Voyager)。这一创新性模型的推出,不仅标志着AI在空间智能领域迈出了关键一步,更为虚拟现实、物理仿真、游戏开发等前沿领域提供了前所未有的高保真3D场景漫游能力,将极大加速相关行业的应用落地进程。
作为当前业界首个支持原生3D重建的超长漫游世界模型,混元Voyager成功打破了传统视频生成技术在空间一致性和探索范围上的双重限制。它能够生成长距离、世界一致的漫游场景,并且支持将生成的视频直接导出为3D格式,这一特性使其在众多同类模型中脱颖而出。值得注意的是,混元Voyager所具备的3D输入 - 3D输出特性,与腾讯混元此前已开源的混元世界模型1.0实现了高度适配。通过这种适配,不仅可以进一步扩展1.0模型的漫游范围,还能显著提升复杂场景的生成质量,同时支持对生成场景进行灵活的风格化控制和编辑操作。
此外,混元Voyager的功能远不止于此,它还能够支持视频场景重建、3D物体纹理生成、视频风格定制化生成、视频深度估计等多种3D理解与生成应用,充分展现了其在空间智能方面的巨大潜力。目前,该模型已正式上线,相关的技术报告也已对外公开,源代码则在GitHub和Hugging Face平台上免费开放,全球开发者均可下载和使用,共同探索其在各个领域的应用可能。
在当前的AI领域,谷歌Genie3等支持实时交互的视频生成世界模型备受瞩目。然而,这类模型的纯2D输出特性,使其难以满足虚拟现实和物理仿真等应用场景对3D交互的迫切需求。另一方面,直接生成3D场景的技术虽然具备空间结构上的优势,但却面临着训练数据稀缺和内存效率低下的严峻挑战,导致其无法泛化到更大规模的场景生成任务中。
混元Voyager作为混元世界模型1.0的官方扩展模型,在技术上实现了重大突破。它创新性地将场景深度预测引入视频生成过程,巧妙融合了视频生成与3D建模的双重优势。基于相机可控的视频生成技术,混元Voyager能够从初始场景视图和用户指定的相机轨迹中,合成出可自由控制视角、空间连贯的RGB - D视频(即包含RGB图像和深度信息的点云视频)。
用户在使用混元Voyager时,操作极为便捷,只需通过键盘或者摇杆即可控制生成对应的视频画面。更重要的是,该模型通过3D空间记忆功能,能够保持画面的高度一致性,从而实现与Genie3相同的实时交互能力。与此同时,Voyager还支持将生成的视频无损导出为3D点云,整个过程无需依赖COLMAP等额外的重建工具,极大简化了3D模型的获取流程。
如上图所示,清晰地展示了由混元Voyager模型生成的相机可控3D场景漫游画面,其中包含了树木、建筑等丰富的场景元素以及相应的相机控制设备。这一动态演示直观地体现了混元Voyager卓越的空间智能生成能力,让读者能够更生动地理解该模型在3D场景生成与控制方面的优势。
混元Voyager首次采用空间与特征相结合的方式,实现了原生的3D记忆和场景重建功能,有效避免了传统后处理方法所带来的延迟和精度损失问题。同时,在输入端加入3D条件,确保了画面视角的精准性;在输出端直接生成3D点云,能够完美适配多种不同的应用场景。此外,额外的深度信息还为视频场景重建、3D物体纹理生成、风格化编辑和深度估计等功能提供了有力支持,进一步拓展了模型的应用边界。
为了实现更高效的场景生成和漫游,混元Voyager还引入了可扩展的世界缓存机制。该机制基于混元3D世界模型1.0生成的初始3D点云缓存,将其投影到目标相机视图,为扩散模型提供精准指导。而且,生成的视频帧会实时更新缓存,形成一个闭环系统。这一系统支持任意相机轨迹的控制,同时能够维持场景的几何一致性。这不仅极大地扩展了漫游范围,还为1.0模型补充了新的视角内容,从而提升了整体的生成质量。
在性能评估方面,混元Voyager表现出色。在斯坦福大学李飞飞团队发布的世界模型基准测试WorldScore中,混元Voyager位居综合能力首位,超越了现有的所有开源方法,在视频生成和3D重建这两项关键任务中均取得了优异的成绩。这一测试结果充分证明了混元Voyager在技术上的领先地位和强大性能。
腾讯混元世界模型系列的开源进程正在不断加速。今年7月,混元3D世界模型1.0发布并开源,成为业界首个兼容传统CG管线的可漫游世界生成模型。8月,腾讯混元又推出了1.0 Lite版,有效降低了显存需求,使得该模型能够支持消费级显卡部署,进一步降低了开发者的使用门槛。仅仅两周之后,针对遮挡视图和探索范围限制等问题,混元团队再次发力,推出了这款超长漫游世界模型Voyager,展现了腾讯混元在技术研发上的快速迭代能力。
回顾腾讯混元的开源历程,此前已陆续开源了业界领先的文生图、视频生成和3D生成能力,提供了接近商业模型性能的开源模型。在基础模型方面,混元开源了MoE架构的代表性模型混元large、混合推理模型Hunyuan - A13B,以及多个面向端侧场景的小尺寸模型,其中最小的模型仅为0.5B参数。而最新开源的翻译模型Hunyuan - MT - 7B在国际翻译比赛中表现惊艳,斩获了31个语种中的30项冠军,充分彰显了腾讯混元在自然语言处理领域的深厚积累。
腾讯混元在3D生成能力方面一直处于全球领先地位。其最新版本混元3D v2.5在质感上实现了显著提升,在今年6月上海人工智能实验室组织的评测中荣登全球第一。混元3D系列开源模型的下载量在开源社区中位居榜首,混元3D世界模型1.0上线后迅速登顶Hugging Face论文热榜第一和模型热榜第二,受到了全球开发者的广泛关注和高度认可。
混元Voyager的开源,无疑为全球的开发者和研究人员提供了一个强大的工具和平台。通过这一模型,开发者们可以更深入地探索空间智能技术在各个领域的应用,推动相关产业的创新发展。未来,随着技术的不断进步和应用场景的持续拓展,我们有理由相信,混元Voyager将在空间智能领域发挥越来越重要的作用,为构建更加智能、高效的3D数字世界贡献力量。同时,腾讯混元也将继续秉持开源精神,不断推出更多创新性的技术和模型,与全球开发者共同推动AI技术的发展和应用落地。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



