腾讯混元Voyager登顶世界模型榜单,开源3D场景生成技术革新行业标准
腾讯混元实验室近日发布重磅成果——HunyuanWorld-Voyager(简称混元Voyager)世界模型,不仅以综合评分斩获斯坦福WorldScore排行榜冠军,更实现重大技术突破:作为业界首个原生支持3D重建的超长漫游模型,其创新架构可生成空间一致的长距离漫游场景,并直接导出视频的3D格式文件。该模型已同步开放源代码,距离上一代HunyuanWorld 1.0 Lite版本发布仅间隔两周,展现出腾讯在AIGC领域的极速迭代能力。
混元Voyager带来的核心变革在于重构了3D场景的生成逻辑。不同于传统360°全景图的静态视角限制,新模型支持用户通过键鼠自由操控视角移动,实现沉浸式场景漫游体验。从繁华都市的真实街景到像素风格的游戏场景,生成效果达到以假乱真的程度,肉眼几乎无法分辨与实拍画面的差异。值得注意的是,模型对输入图像分辨率有明确要求,超出或低于标准范围将导致生成失败,官方已同步公布详细的参数规范。
技术架构层面,混元Voyager首创"场景深度预测+视频生成"双轨并行框架。通过在视频生成流程中引入深度信息,模型实现了原生3D记忆与场景重建能力,彻底摆脱传统后处理技术带来的延迟问题。其核心创新点体现在两个关键组件:世界一致的视频扩散模块可同步生成精确对齐的RGB视频与深度序列,确保全局场景的空间连贯性;长距离世界探索模块则通过点云剔除与自回归推理融合的缓存机制,支持场景的迭代式扩展与平滑视频采样。这种端到端的3D生成模式,使模型能够直接输出可编辑的3D点云数据,大幅降低下游应用的开发门槛。
训练数据的构建同样彰显技术实力。腾讯混元团队研发的自动化视频重建流水线,可对任意输入视频进行相机位姿估计与深度度量,完全摆脱人工标注依赖。基于该引擎构建的训练数据集包含10万+视频片段,融合真实世界采集素材与虚幻引擎渲染资源,形成规模与多样性兼备的优质训练数据。通过将初始3D点云缓存动态投影至目标相机视图,模型建立起"生成-反馈-更新"的闭环系统,既保证了任意相机轨迹下的几何一致性,又能持续扩展漫游范围并优化生成质量。
在权威评测中,混元Voyager展现出压倒性优势。WorldScore排行榜数据显示,其综合性能超越所有开源竞品,尤其在相机运动控制和空间一致性指标上表现突出。定性测试更验证了模型的细节保留能力:在产品展示场景中,唯有混元Voyager完整复现了物体表面纹理特征,而其他方法普遍出现明显的几何畸变。3D重建任务中,即使不依赖外部后处理工具,模型生成的吊灯等复杂物体仍保持准确的空间结构,深度信息辅助下的点云初始化进一步将重建精度提升30%以上。主观视觉质量评分中,模型获得测试者一致认可,视频真实感评分领先第二名15个百分点。
目前,混元Voyager已通过Gitcode平台(https://gitcode.com/tencent_hunyuan/HunyuanWorld-Voyager)完全开源,技术报告与部署文档同步发布。开发者可基于该框架实现从文本/图像到3D场景的全流程生成,支持视频场景重建、3D物体纹理生成、风格化编辑等多元应用。此次发布延续了腾讯混元的开源战略,此前推出的Hunyuan-MT-7B翻译模型曾横扫30项国际赛事冠军,而混元Voyager的开源将进一步推动3D内容创作生态的发展。
行业层面,腾讯的技术突破正引领国内AIGC领域的开源竞赛。继阿里Qwen系列、美团Longcat-Flash-Chat之后,混元Voyager的问世标志着中国科技企业在基础模型研发上已形成集团优势。随着3D内容需求在元宇宙、数字孪生等领域的爆发式增长,这项技术有望重塑游戏开发、虚拟会展、智慧城市等产业的内容生产方式,为行业带来降本增效的革命性影响。未来,随着模型对复杂动态场景生成能力的持续优化,我们或将见证AIGC从2D平面创作全面迈向3D空间构建的新纪元。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



