腾讯开源HunyuanWorld-Voyager:单图生成3D世界,创作效率提升50倍
导语
腾讯正式开源视频扩散框架HunyuanWorld-Voyager,实现从单张图像出发,结合用户自定义相机路径生成3D一致场景视频的技术突破,为3D内容创作领域带来新范式。
行业现状:3D内容创作的效率瓶颈与技术突破
当前3D内容生产仍面临专业壁垒高、制作周期长的双重挑战。游戏开发中单个场景搭建需3-5人团队工作2-4周,VR内容制作成本高达传统2D内容的8-10倍。根据行业研究数据,2024年全球3D生成AI市场规模已达15.1亿美元,预计2031年将突破62.8亿美元,年复合增长率23.1%。随着元宇宙基建提速与Apple Vision Pro等设备普及,内容供给能力已成为制约行业发展的核心瓶颈。
混元团队负责人在技术报告中指出:"现有3D生成技术要么像视频驱动方法缺乏空间一致性,要么像纯3D建模受限于数据稀缺。我们需要一种能融合两者优势的新范式。"HunyuanWorld-Voyager的推出正是为解决这一行业痛点而来。
核心亮点:三大技术创新重构3D生成逻辑
1. 世界一致视频扩散机制
该框架首创RGB-D双模态联合生成技术,可从单张图像同时生成色彩信息(RGB)和深度信息(Depth),解决传统视频生成在空间一致性上的固有缺陷。通过时空注意力融合机制,实现噪声潜在表示、参考图像编码和条件帧表示的有效融合,数学模型表示为:z′t,0 = femb(concat(zt, ẑi, ẑ0, m))。
这种设计使模型能够在生成过程中充分考虑几何约束,确保不同视角下物体比例、位置关系保持一致。在实验中,当相机轨迹大幅移动时,传统方法普遍出现结构塌陷或α影问题,而Voyager仍能准确还原输入图像中的产品边界与材质细节。
2. 长距离世界探索能力
HunyuanWorld-Voyager引入创新的世界缓存机制管理空间信息,通过智能点云剔除策略,在保留必要几何信息的同时显著减少存储需求。随着视频序列延长,系统会持续"记住"用户走过的路径,并在空间中衔接新的视角内容,实现类似游戏引擎的场景扩展能力。
如上图所示,该架构图展示了HunyuanWorld-Voyager的技术流程,包含用户输入处理(图像、文本、相机参数及深度估计)、几何注入渲染流程、世界缓存空间管理,以及基于DiT(扩散Transformer)的编码器/解码器结构,直观呈现了从多模态输入到视频序列生成的完整技术路径。
系统采用自回归范式生成长视频序列,通过平滑采样策略确保片段间的无缝衔接。首先生成初始视频片段,然后基于重叠区域逐步生成后续片段,每个新片段生成时使用前一片段的重叠区域作为初始化,确保时序连续性。
3. 可扩展数据引擎与高效训练策略
为支撑模型训练,混元团队构建了一套可扩展的数据构建引擎,能自动对任意输入视频估计相机姿态与时序信息,摆脱人工标注依赖。该引擎整合VGGT姿态估计、MoGE深度估计和Metric3D度量缩放技术,批量生成可用于RGB-D建模的训练样本,最终构建了包含超过10万段视频片段的大规模训练集。
训练过程采用三阶段策略:第一阶段仅使用RGB条件训练,冻结深度相关参数;第二阶段引入RGB-D联合训练,解冻深度相关参数;第三阶段进行控制块微调,仅训练ControlNet块。这种渐进式训练确保了模型的训练稳定性和最终性能。
性能验证:多项指标领先行业水平
在斯坦福李飞飞团队主导的WorldScore排行榜中,HunyuanWorld-Voyager在当前主流世界模型中平均成绩位列第一。该基准评估模型在开放域条件下的世界建构能力,尤其关注光学运动控制能力与空间一致性表现。
这张斯坦福WorldScore基准测试对比表格展示了Voyager在平均得分及相机控制、物体控制等多项技术指标上的领先表现,其Bold和underline标记突出了其第一名的成绩。在视频生成任务中,Voyager在PSNR、SSIM和LPIPS等指标上均优于四种开源的相机可控视频生成方法。
在场景重建能力测试中,即便仅使用RGB重建,Voyager生成的视频在几何一致性方面也优于其他方法;加入原生深度信息初始化点云后,重建精度进一步提升。在3D Gaussian Splatting任务中,Voyager成功还原了复杂结构(如吊灯)的完整形状,而其他方法在边缘结构与局部细节上普遍存在缺失。
应用场景:多领域效率提升方案
HunyuanWorld-Voyager可广泛应用于需要3D内容生成的多个领域:
- 游戏开发:快速生成可交互游戏场景,大幅缩短开发周期。开发者只需提供关键场景图像,即可通过自定义相机路径生成完整游戏世界
- 虚拟现实:创建沉浸式VR内容,降低VR内容制作门槛。生成的点云序列可直接导入VR引擎,实现所见即所得的内容创作
- 影视制作:辅助生成复杂场景的3D模型和漫游视频,减少实景拍摄成本
- 建筑设计:将2D设计图转换为可漫游的3D建筑模型,便于设计方案展示与修改
- 虚拟旅游:生成景点的3D漫游内容,提供沉浸式远程旅游体验
行业影响与趋势
HunyuanWorld-Voyager的开源发布,标志着3D内容创作正式进入"单图生世界"的新阶段。作为业界首个支持原生3D重建的超长漫游世界模型,该框架突破了传统视频生成在空间一致性和探索范围上的局限,能够生成长距离、世界一致的漫游场景,并支持将视频直接导出为3D格式。
该技术降低了3D内容创作的专业门槛,使普通创作者也能通过简单操作生成复杂3D场景。对于企业而言,这一工具可将3D内容制作成本降低60%以上,同时将开发周期从数周缩短至小时级。随着技术普及,预计将催生一批基于AI生成3D内容的创新应用,加速元宇宙、VR/AR等领域的内容生态建设。
混元团队表示,未来将继续优化模型的轻量化部署,进一步降低显存占用和计算资源需求,同时拓展多模态输入能力,支持文本、图像、音频等多种形式的内容生成。社区开发者可通过以下渠道获取资源:
- 项目仓库:https://gitcode.com/tencent_hunyuan/HunyuanWorld-Voyager
- Huggingface:https://huggingface.co/tencent/HunyuanWorld-Voyager
- 技术报告:https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf
总结
HunyuanWorld-Voyager的开源,不仅展示了腾讯在3D生成领域的技术实力,也为行业提供了一个高质量的基础工具,将推动整个3D AIGC领域的创新发展。对于希望在3D内容创作领域保持竞争力的企业和个人,现在正是探索和应用这一技术的理想时机。通过降低3D内容创作门槛、提高生产效率,HunyuanWorld-Voyager有望在游戏开发、虚拟现实、影视制作等多个领域引发效率革命,加速数字内容产业的发展进程。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考





