腾讯混元Voyager模型震撼登场:开启3D空间智能新纪元,多行业应用迎来变革

腾讯混元Voyager模型震撼登场:开启3D空间智能新纪元,多行业应用迎来变革

【免费下载链接】HunyuanWorld-Voyager HunyuanWorld-Voyager是腾讯开源的视频扩散框架,能从单张图像出发,结合用户自定义相机路径,生成具有世界一致性的3D点云序列。它可按自定义相机轨迹生成3D一致的场景视频用于世界探索,还能联合生成对齐的深度和RGB视频,实现高效直接的3D重建 【免费下载链接】HunyuanWorld-Voyager 项目地址: https://ai.gitcode.com/tencent_hunyuan/HunyuanWorld-Voyager

2025年9月4日,腾讯混元团队宣布正式发布并开源全新3D世界模型——HunyuanWorld - Voyager(简称混元Voyager)。作为业界首款支持原生3D重建的超长漫游世界模型,该模型的推出标志着AI在空间智能领域的应用迈出了关键一步,将为虚拟现实、物理仿真、游戏开发等多个领域带来高保真的3D场景漫游能力,有力推动行业应用的快速落地。

传统的视频生成技术在空间一致性和探索范围方面一直存在难以突破的局限,而混元Voyager的横空出世成功打破了这些壁垒。它不仅能够生成长距离、世界一致的漫游场景,更实现了将视频直接导出为3D格式的重大突破。其独特的3D输入 - 3D输出特性,与此前已开源的混元世界模型1.0实现了高度适配,这意味着可以进一步扩展1.0模型的漫游范围,同时显著提升复杂场景的生成质量,并且支持对生成的场景进行灵活的风格化控制和编辑操作。

在技术创新层面,混元Voyager作为混元世界模型1.0的官方扩展模型,展现出了多项令人瞩目的技术亮点。它创新性地将场景深度预测引入视频生成过程,巧妙融合了视频生成与3D建模的双重优势。借助相机可控的视频生成技术,用户只需提供初始场景视图和指定的相机轨迹,就能合成出视角可自由控制、空间连贯的RGB - D视频,这种视频包含了丰富的RGB图像和深度信息的点云数据。用户通过简单的键盘或者摇杆操作,就能轻松控制生成对应的视频画面,而且通过3D空间记忆功能,能够保持画面的高度一致性,实现了与谷歌Genie3相媲美的能力。更为重要的是,Voyager支持将生成的视频无损导出为3D点云,整个过程无需依赖COLMAP等额外的重建工具,极大简化了工作流程。

混元Voyager首次采用空间与特征相结合的方式,实现了原生的3D记忆和场景重建,有效避免了传统后处理方式所带来的延迟和精度损失问题。在输入端,通过加入3D条件确保了画面视角的精准性;在输出端,直接生成3D点云数据,能够完美适配多种不同的应用场景。此外,额外获取的深度信息为视频场景重建、3D物体纹理生成、风格化编辑以及深度估计等多种功能提供了坚实的技术支撑。

不仅如此,混元Voyager还引入了极具创新性的可扩展世界缓存机制。该机制基于混元3D世界模型1.0生成的初始3D点云缓存,将其巧妙投影到目标相机视图,为扩散模型提供精准指导。生成的视频帧会实时对缓存进行更新,形成一个高效的闭环系统。这一系统不仅支持任意相机轨迹的灵活应用,还能同时维持几何一致性,不仅有效扩展了漫游范围,还为1.0模型补充了新的视角内容,从而全面提升整体的生成质量。

在性能表现方面,混元Voyager同样交出了一份令人惊艳的答卷。在斯坦福大学李飞飞团队发布的权威世界模型基准测试WorldScore中,该模型凭借卓越的综合能力位居榜首,超越了当前所有的开源方法,在视频生成和3D重建两大核心任务中均展现出了出色的性能。特别是在视频生成和视频3D重建这两个关键任务上,Voyager都取得了显著优于现有技术的结果。与现有的开源方法相比,Voyager根据生成的视频帧能够重建出更加精确的3DGS场景,充分证明了其强大的技术实力。

值得高度关注的是,腾讯混元世界模型系列的开源进程一直在以惊人的速度加速推进。回顾其发展历程,7月份,混元3D世界模型1.0正式发布并开源,一举成为业界首个兼容传统CG管线的可漫游世界生成模型,引发了行业的广泛关注。紧接着在8月份,团队迅速推出了1.0 Lite版,通过优化降低了显存需求,使得消费级显卡也能够轻松部署该模型,极大降低了应用门槛。仅仅在两周之后,针对遮挡视图和探索范围限制等问题,团队再次发力,推出了这款超长漫游世界模型Voyager,展现出了惊人的技术迭代速度和强大的研发实力。

事实上,在此之前,混元团队已经陆续开源了多项业界领先的AI生成能力,包括文生图、视频生成和3D生成等,为广大开发者提供了性能接近商业模型的高质量开源模型。在基础模型领域,混元同样成果丰硕,开源了MoE架构的代表性模型混元large、混合推理模型Hunyuan - A13B,以及多个面向端侧场景的小尺寸模型,其中最小的模型仅为0.5B参数,极大地拓展了模型的应用场景。其最新开源的翻译模型Hunyuan - MT - 7B在激烈的国际翻译比赛中表现抢眼,一举斩获31个语种中的30项冠军,充分彰显了其在自然语言处理领域的深厚积累。

而且,混元在3D生成能力方面已经达到了全球领先水平,其最新版本混元3D v2.5在质感表现上实现了显著提升,并于6月份在上海人工智能实验室组织的评测中荣登全球第一的宝座。凭借卓越的性能和广泛的应用前景,混元3D系列开源模型的下载量在开源社区中一直位居榜首,其中混元3D世界模型1.0上线后,迅速登上Hugging Face论文热榜第一和模型热榜第二的位置,受到了全球开发者的热烈追捧。

展望未来,随着混元Voyager等一系列先进模型的不断推出和开源生态的持续完善,AI在空间智能领域的应用将迎来更加广阔的前景。它不仅为相关行业提供了强大的技术工具,还将激发更多创新应用的涌现,推动整个行业向着更高效、更智能的方向发展。我们有理由相信,腾讯混元团队将继续在AI领域深耕细作,为推动全球AI技术的进步和应用落地贡献更多力量。

【免费下载链接】HunyuanWorld-Voyager HunyuanWorld-Voyager是腾讯开源的视频扩散框架,能从单张图像出发,结合用户自定义相机路径,生成具有世界一致性的3D点云序列。它可按自定义相机轨迹生成3D一致的场景视频用于世界探索,还能联合生成对齐的深度和RGB视频,实现高效直接的3D重建 【免费下载链接】HunyuanWorld-Voyager 项目地址: https://ai.gitcode.com/tencent_hunyuan/HunyuanWorld-Voyager

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值