腾讯开源HunyuanWorld-Voyager:单图生成3D漫游视频,重构内容创作范式

腾讯开源HunyuanWorld-Voyager:单图生成3D漫游视频,重构内容创作范式

【免费下载链接】HunyuanWorld-Voyager HunyuanWorld-Voyager是腾讯开源的视频扩散框架,能从单张图像出发,结合用户自定义相机路径,生成具有世界一致性的3D点云序列。它可按自定义相机轨迹生成3D一致的场景视频用于世界探索,还能联合生成对齐的深度和RGB视频,实现高效直接的3D重建 【免费下载链接】HunyuanWorld-Voyager 项目地址: https://ai.gitcode.com/tencent_hunyuan/HunyuanWorld-Voyager

导语

腾讯正式开源视频扩散框架HunyuanWorld-Voyager,实现从单张图像生成具备世界一致性的3D点云序列,为VR/游戏开发、自动驾驶仿真等领域提供全新内容生产方案。

行业现状:3D内容生成迈入3.0时代

当前AI 3D生成技术正处于从"技术验证"向"产业落地"跨越的关键阶段。据量子位智库报告显示,AI已显著降低3D生成在工具链、专业技能和人力成本等方面的门槛,推动行业渗透率快速提升。2025年AI文本转3D生成器市场规模预计达数十亿美元,年复合增长率超30%。然而传统3D内容创作面临三大痛点:专业软件学习成本高、制作周期长(单个场景平均需72小时)、多视角一致性难以保证。

在2025世界人工智能大会腾讯论坛上,腾讯正式发布混元3D世界模型1.0,并宣布全面开源。这是业界首个开源可沉浸漫游、可交互、可仿真的世界生成模型,为游戏开发、VR、数字内容创作等领域带来了全新的可能性。

产品亮点:技术突破与核心功能

从单张图片生成3D点云序列

HunyuanWorld-Voyager能够根据用户定义的相机路径,从单张图片生成3D一致的点云序列,支持长距离的世界探索。这一功能使得用户可以仅通过一张图片,就能构建出一个可交互的3D世界,并且能够沿着自定义的路径进行探索。

生成3D一致的场景视频

该模型可以沿着用户自定义的相机轨迹生成3D一致的场景视频,为用户提供沉浸式的3D场景漫游体验。生成的视频不仅在视觉上具有高度的逼真性,而且在空间结构上也保持了一致性。

支持实时3D重建

生成的RGB和深度视频可直接用于高效的3D重建,无需额外的重建工具,实现从视频到3D模型的快速转换。这大大提高了3D重建的效率和精度。

技术创新:世界一致视频扩散与长距离探索

Voyager采用统一的架构,联合生成对齐的RGB和深度视频序列,通过条件于现有的世界观察来确保全局一致性。它首次在视频生成中引入RGB+Depth的双模态联合建模,形成"点云视频",先在空间维度上拼接RGB和D(Depth),再在特征维度上结合两模态信息,用VAE框架学习RGB-D的生成规律。

腾讯混元世界模型Voyager介绍页面

如上图所示,图片展示了腾讯混元世界模型Voyager的介绍页面,包含开源链接及多幅3D场景示例,突出其支持长距离、世界一致的视频扩散生成能力。这一技术突破展示了从单张图像生成3D世界的可能性,为内容创作者提供了全新的工具。

Voyager通过提出一种具备空间一致性的可拓展世界缓存机制,突破了长距离世界探索的限制。先生成一个初始场景点云缓存,再将缓存投影至用户设定的相机视角,利用扩散模型生成新视角画面,并不断更新缓存,最终形成一个支持任意相机轨迹的闭环系统。

应用场景:从游戏开发到VR体验

游戏开发应用

对游戏开发者而言,混元3D世界模型极大简化了3D场景构建流程,只需输入简单指令,模型即可快速生成包含建筑、地形、植被的完整3D场景。输出的Mesh文件可用于游戏原型搭建或关卡设计,还能灵活调整前景物体、更换天空背景,满足个性化创作需求。

腾讯混元3D世界模型生成的卡通风格城堡3D场景

如上图所示,图片展示了腾讯混元3D世界模型生成的卡通风格城堡3D场景,左侧带有操作界面元素,呈现出可交互的沉浸式视觉空间效果,体现了文生3D的场景生成能力。这种高效的场景生成方式可以显著降低游戏开发成本,缩短开发周期。

VR/AR应用

对于无建模经验的普通用户,混元3D世界模型同样友好易用,通过混元3D创作引擎,仅需一句话或者一张图即可快速生成360°沉浸式视觉空间,生成的场景可无缝导入Vision Pro等虚拟头显,带来沉浸式体验。

物理仿真应用

混元3D世界模型1.0的核心还在于其创新的"语意层次化3D场景表征及生成算法"。该算法将复杂3D世界解构为不同语意层级,实现前景与背景、地面与天空的智能分离,不仅生成视觉效果逼真的整体场景,还能输出标准化的3D Mesh资产,兼容Unity、Unreal Engine、Blender等主流工具。用户可对场景内元素进行独立编辑或物理仿真,无缝衔接AIGC技术与传统CG工作流。

视频重建与深度估计

Voyager通过生成对齐的RGB和深度视频,实现高效且直接的3D重建,无需额外的重建工具。生成的3D模型在几何一致性方面表现更为出色。同时,它还能生成与RGB视频对齐的深度信息,可用于视频分析和3D理解任务。

HunyuanWorld-Voyager模型工作流程

如上图所示,图片展示了腾讯开源的HunyuanWorld-Voyager模型,通过单张输入图像生成具有世界一致性的3D点云及对应RGB视频、深度信息,支持自定义相机路径实现沉浸式探索。这一工作流程展示了从2D图像到3D内容的完整生成过程,为各类3D应用提供了基础。

行业影响与未来趋势

HunyuanWorld-Voyager的开源发布,标志着3D内容创作正式进入"单图秒生成"时代。该技术将对多个行业产生深远影响:

  1. 游戏开发:大幅降低游戏场景制作成本,缩短开发周期,使小型团队也能制作高质量3D游戏内容。

  2. 虚拟现实:推动VR内容爆发式增长,丰富VR应用场景,提升用户体验。

  3. 影视制作:简化特效场景制作流程,降低影视特效成本,为独立电影人提供更多创作可能。

  4. 建筑可视化:快速将2D设计图转换为3D可漫游场景,提升建筑设计沟通效率。

  5. 自动驾驶:为自动驾驶仿真提供高效的3D场景生成工具,加速自动驾驶算法训练。

腾讯混元还开放了完整多模态生成能力及工具集插件,陆续开源了业界领先的文生图、视频生成和3D生成能力,提供接近商业模型性能的开源基座,方便社区基于业务和使用场景定制。混元3D系列模型社区下载量超过230万,已成为全球最受欢迎的3D开源模型。

快速开始:安装与使用

硬件配置要求

Voyager需要强大的计算能力才能运行,540p分辨率至少需要60GB GPU内存,腾讯建议80GB以获得更好的结果。对于需要更快处理的用户,系统支持多GPU并行推理,八个GPU的处理速度比单GPU快6.69倍。

安装步骤

# 1.克隆GitHub仓库
git clone https://gitcode.com/tencent_hunyuan/HunyuanWorld-Voyager
cd HunyuanWorld-Voyager

# 2.创建虚拟环境
conda create -n voyager python==3.11.9
conda activate voyager

# 3. 安装PyTorch及其他依赖
conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 pytorch-cuda=12.4 -c pytorch -c nvidia

# 4. 安装依赖
python -m pip install -r requirements.txt
python -m pip install transformers==4.39.3

# 5. 安装flash attention v2加速
python -m pip install flash-attn

# 6. 安装xDiT用于并行推理
python -m pip install xfuser==0.4.2

模型推理示例

cd HunyuanWorld-Voyager
python3 sample_image2video.py \
--model HYVideo-T/2 \
--input-path "examples/case1" \
--prompt "An old-fashioned European village with thatched roofs on the houses." \
--i2v-stability \
--infer-steps 50 \
--flow-reverse \
--flow-shift 7.0 \
--seed 0 \
--embedded-cfg-scale 6.0 \
--use-cpu-offload \
--save-path ./results

结语

HunyuanWorld-Voyager作为腾讯推出的一款具有创新性的超长漫游世界模型,凭借其强大的功能和卓越的性能,在3D场景生成领域展现出了巨大的潜力和应用价值。它不仅为研究人员和开发者提供了一个强大的工具,也为3D内容创作和相关行业的未来发展开辟了新的道路。

随着技术的不断进步和应用的不断拓展,我们有理由相信,HunyuanWorld-Voyager将在更多的领域发挥出更大的作用,推动3D内容创作进入一个全新的时代。对于开发者和创作者而言,现在正是探索和应用这一技术的最佳时机,抓住这一机遇,将为自己的创作和业务带来新的增长点。

项目地址:

  • GitHub仓库:https://gitcode.com/tencent_hunyuan/HunyuanWorld-Voyager
  • 项目官网:https://3d-models.hunyuan.tencent.com/world/
  • Hugging Face模型库:https://huggingface.co/tencent/HunyuanWorld-Voyager
  • 技术报告:https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf

【免费下载链接】HunyuanWorld-Voyager HunyuanWorld-Voyager是腾讯开源的视频扩散框架,能从单张图像出发,结合用户自定义相机路径,生成具有世界一致性的3D点云序列。它可按自定义相机轨迹生成3D一致的场景视频用于世界探索,还能联合生成对齐的深度和RGB视频,实现高效直接的3D重建 【免费下载链接】HunyuanWorld-Voyager 项目地址: https://ai.gitcode.com/tencent_hunyuan/HunyuanWorld-Voyager

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值