腾讯混元Voyager登顶世界模型榜单:开源3D漫游技术重构空间智能

腾讯混元Voyager登顶世界模型榜单:开源3D漫游技术重构空间智能

【免费下载链接】HunyuanWorld-Voyager HunyuanWorld-Voyager是腾讯开源的视频扩散框架,能从单张图像出发,结合用户自定义相机路径,生成具有世界一致性的3D点云序列。它可按自定义相机轨迹生成3D一致的场景视频用于世界探索,还能联合生成对齐的深度和RGB视频,实现高效直接的3D重建 【免费下载链接】HunyuanWorld-Voyager 项目地址: https://ai.gitcode.com/tencent_hunyuan/HunyuanWorld-Voyager

腾讯混元世界模型家族再添重磅成员——HunyuanWorld-Voyager(简称混元Voyager)正式发布并同步开源,凭借原生3D重建能力一举斩获WorldScore排行榜综合冠军。这一突破性进展距HunyuanWorld 1.0 Lite版发布仅隔两周,标志着国内AI在空间智能领域实现弯道超车。

作为业界首款支持原生3D重建的超长漫游世界模型,混元Voyager实现了三大技术突破:长距离场景漫游的空间一致性、视频到3D格式的直接转换、多模态3D内容生成。无论是真实街景的沉浸式体验,还是像素游戏的立体呈现,生成效果均达到以假乱真的程度,彻底颠覆传统2D内容创作范式。

从文本到空间:一键构建沉浸式数字世界

混元Voyager将创作门槛压缩至"一句话、一张图"的极简模式。用户只需输入文本描述或上传参考图像,即可生成支持鼠标键盘交互的3D漫游场景,左侧控制面板提供渲染画质与视角调节功能,让普通用户也能轻松打造专业级虚拟空间。

图片展示了腾讯混元Voyager世界模型的Prompt指引界面及生成的户外场景示例,含场景类别、特征等参数设置说明与紫色调沙漠风格场景图,用于辅助理解模型场景生成能力。 如上图所示,界面左侧展示了场景类别、环境特征等参数调节面板,右侧呈现的紫色调沙漠场景展示了模型对复杂光影环境的渲染能力。这一交互设计充分体现了技术普惠的产品理念,为内容创作者提供了零代码构建3D世界的全新工具。

该模型不仅完美兼容已开源的混元1.0模型,更拓展出视频场景重建、3D物体纹理生成、风格化编辑等多元能力。通过将深度信息融入创作流程,实现从平面图像到立体空间的无缝转换,为元宇宙建设、数字孪生等领域提供核心技术支撑。

腾讯混元3D·世界模型界面截图,展示支持鼠标键盘交互的3D漫游场景,含视角FOV、渲染画质等设置及文生/图生场景功能 此图清晰呈现了3D漫游场景的交互界面,FOV调节滑块与画质选择按钮直观可见,文生/图生双入口设计满足不同创作需求。这种可视化操作流程体现了腾讯混元对用户体验的极致追求,使专业级3D创作工具变得触手可及。

深度融合架构:重新定义视频生成范式

混元Voyager的革命性突破源于其创新的技术架构。不同于传统视频生成后处理3D化的低效路径,该模型首次将场景深度预测直接嵌入视频生成流程,通过空间特征与视觉特征的协同学习,构建原生3D记忆系统,彻底解决了传统方法的延迟卡顿与精度损失问题。

这一架构创新实现了"视频生成+3D建模"的无缝融合:基于可控相机轨迹技术,系统能从初始视图出发,合成视角自由切换的RGB-D视频序列。其核心在于两大独创组件:世界一致的视频扩散模块确保RGB与深度视频的精确对齐,长距离世界探索机制通过点云缓存与自回归推理实现场景的无限扩展。

为支撑这一复杂系统,腾讯混元团队构建了自动化数据引擎,通过相机位姿估计与深度度量技术,将真实世界采集与虚幻引擎渲染的视频资源转化为结构化训练数据。基于这套无需人工标注的流水线,团队已构建包含10万+视频片段的大规模数据集,为模型泛化能力奠定坚实基础。

权威认证实力:多维度评测刷新行业标准

在斯坦福大学李飞飞团队发布的WorldScore基准测试中,混元Voyager展现出压倒性优势:综合评分超越所有开源方法,尤其在相机运动控制与空间一致性指标上创下新纪录。定性测试显示,唯有混元Voyager能完整保留输入图像中的产品细节,而其他方法普遍出现特征失真。

场景重建评测更凸显技术领先性:使用VGGT后处理时,混元Voyager重建精度已超越所有基线模型;若启用原生深度信息初始化点云,性能更有显著提升。在吊灯等复杂物体的重建任务中,该模型能精准还原几何特征,而对比方法甚至无法生成基本形状。主观质量评分的绝对优势,进一步验证其生成内容的视觉真实性。

开源生态布局:加速空间智能产业落地

秉持开放共赢理念,混元Voyager已在Gitcode平台完全开源(仓库地址:https://gitcode.com/tencent_hunyuan/HunyuanWorld-Voyager),技术报告与部署文档同步公开。这一举措使开发者能直接调用3D点云生成、深度估计等核心能力,加速AR/VR内容创作、数字孪生、机器人导航等领域的应用创新。

作为腾讯混元开源战略的重要一环,Voyager与此前发布的MoE架构大模型、端侧小尺寸模型、翻译专用模型形成技术矩阵。其中Hunyuan-MT-7B已在国际机器翻译大赛斩获30项冠军,展现出多模态AI的全面实力。随着空间智能技术的普及,我们或将迎来数字内容创作的3D革命,一个虚实交融的智能世界正加速到来。

【免费下载链接】HunyuanWorld-Voyager HunyuanWorld-Voyager是腾讯开源的视频扩散框架,能从单张图像出发,结合用户自定义相机路径,生成具有世界一致性的3D点云序列。它可按自定义相机轨迹生成3D一致的场景视频用于世界探索,还能联合生成对齐的深度和RGB视频,实现高效直接的3D重建 【免费下载链接】HunyuanWorld-Voyager 项目地址: https://ai.gitcode.com/tencent_hunyuan/HunyuanWorld-Voyager

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值