混元世界模型上新,综合能力问鼎WorldScore排行榜

今天,混元3D世界模型系列最新成员——HunyuanWorld-Voyager(简称混元Voyager)正式发布,这也是业界首个支持原生3D重建的超长漫游世界模型。

该模型聚焦于AI在空间智能领域的应用扩展,将为虚拟现实、物理仿真、游戏开发等领域提供高保真的3D场景漫游能力。 

混元Voyager突破了传统视频生成在空间一致性和探索范围上的局限,能够生成长距离、世界一致的漫游场景,支持将视频直接导出为3D格式。

图片

混元Voyager 3D输入-3D输出的特性,与此前已开源的混元世界模型 1.0 高度适配,可进一步扩展 1.0 模型漫游范围,提升复杂场景的生成质量,并可对生成的场景做风格化控制和编辑。

图片

不仅如此,混元Voyager 还可支持视频场景重建、3D物体纹理生成、视频风格定制化生成、视频深度估计等多种3D理解与生成应用,展现出空间智能的潜力。

图片

当前,可交互的视频模型已经展现出在世界模型生成上的潜力。然而,实际应用中(如虚拟现实、物理仿真等)通常需要能够建模的显式 3D 场景,纯视频的生成内容很难为用户提供更加真实的交互形式。

另一方面,直接生成3D形式的世界场景,虽具备更好的空间结构的一致性和交互应用的拓展性,却受限于3D训练数据稀缺与3D表征内存效率低下等问题,无法泛化到更多的类别和更大场景中。

混元Voyager框架创新性地将场景深度预测引入视频生成过程,融合了视频生成与3D建模优势,基于相机可控的视频生成技术,从初始场景视图和用户指定相机轨迹中,合成可自由控制视角、空间连贯的RGB-D视频(包含RGB图像和深度信息的点云视频)。

图片

用户可通过键盘或者摇杆控制生成对应的视频画面,并通过3D空间记忆保持画面的高度一致性,实现与可交互视频模型如Genie3等相同的功能。同时,Voyager还支持将生成视频无损导出3D点云,无需依赖COLMAP等额外重建工具。

图片

混元Voyager首次通过空间与特征结合的方式,支持原生的3D记忆和场景重建,避免了传统后处理带来的延迟和精度损失。同时,在输入端加入3D条件保证画面视角精准,输出端直接生成3D点云,适配多种应用场景。额外的深度信息还能支持视频场景重建、3D物体纹理生成、风格化编辑和深度估计等功能。

Voyager还引入了可扩展的世界缓存机制,基于1.0模型生成的初始3D点云缓存,将其投影到目标相机视图,为扩散模型提供指导。此外,生成的视频帧还会实时更新缓存,形成闭环系统,支持任意相机轨迹,同时维持几何一致性。这不仅扩展了漫游范围,还为1.0模型补充新视角内容,提升整体生成质量。

图片

该模型在斯坦福大学李飞飞团队发布的世界模型基准测试WorldScore上位居综合能力首位,超越现有开源方法,在视频生成和3D重建任务中均表现出色。在视频生成和视频3D重建两个任务上,Voyager也均取得更好的结果。

图片

Voyager在世界模型排行榜 WorldScore上,取得了综合能力第一名的成绩https://huggingface.co/spaces/Howieeeee/WorldScore_Leaderboard

图片

图生视频指标

图片

视频重建指标

图片

和现有开源方法比较,HunyuanWorld-Voyager可重建出更加精确的3DGS场景

腾讯混元世界模型系列开源正不断加速。7月,混元3D世界模型1.0发布并开源,成为业界首个兼容传统CG管线的可漫游世界生成模型。8月,推出1.0 Lite版,降低显存需求,支持消费级显卡部署。仅两周后,针对遮挡视图和探索范围限制,混元团队进一步优化,推出超长漫游世界模型Voyager。

此前,混元已陆续开源业界领先的文生图、视频生成和3D生成能力,提供接近商业模型性能的开源模型,

混元3D系列开源模型下载量位居开源社区榜首

在基础模型方面,混元开源了MoE架构的代表性模型混元large、混合推理模型Hunyuan-A13B,以及多个面向端侧场景的小尺寸模型,最小仅0.5B参数。最新开源的翻译模型Hunyuan-MT-7B,在国际翻译比赛中斩获31个语种中的30项冠军。

HunyuanWorld-Voyager 现已正式上线,相关技术报告已公开,源代码在GitHub和Hugging Face上免费开放,欢迎大家下载和使用。

  • 项目主页:https://3d-models.hunyuan.tencent.com/world/

  • Github:https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager

  • Hugging Face:https://huggingface.co/tencent/HunyuanWorld-Voyager

  • 技术报告:https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf

关注腾讯开源公众号

获取更多最新腾讯官方开源信息!

加入微信群即可了解更多“腾讯开源新动态”

图片

分布式微服务企业级系统是一个基于Spring、SpringMVC、MyBatis和Dubbo等技术的分布式敏捷开发系统架构。该系统采用微服务架构和模块化设计,提供整套公共微服务模块,包括集中权限管理(支持单点登录)、内容管理、支付中心、用户管理(支持第三方登录)、微信平台、存储系统、配置中心、日志分析、任务和通知等功能。系统支持服务治理、监控和追踪,确保高可用性和可扩展性,适用于中小型企业的J2EE企业级开发解决方案。 该系统使用Java作为主要编程语言,结合Spring框架实现依赖注入和事务管理,SpringMVC处理Web请求,MyBatis进行数据持久化操作,Dubbo实现分布式服务调用。架构模式包括微服务架构、分布式系统架构和模块化架构,设计模式应用了单例模式、工厂模式和观察者模式,以提高代码复用性和系统稳定性。 应用场景广泛,可用于企业信息化管理、电子商务平台、社交应用开发等领域,帮助开发者快速构建高效、安全的分布式系统。本资源包含完整的源码和详细论文,适合计算机科学或软件工程专业的毕业设计参考,提供实践案例和技术文档,助力学生和开发者深入理解微服务架构和分布式系统实现。 【版权说明】源码来源于网络,遵循原项目开源协议。付费内容为本人原创论文,包含技术分析和实现思路。仅供学习交流使用。
### 关于混元模型的详细介绍 混元模型是由腾讯推出的一系列大型人工智能预训练模型,涵盖了自然语言处理、计算机视觉等多个领域。该模型旨在提供强大的多模态理解和生成能力,适用于多种实际应用场景[^2]。 #### 混元模型的核心功能 混元模型不仅支持文本生成和理解,还具备图像识别、语音合成等多种跨模态的能力。其翻译能力尤为突出,能够实现高质量的多语言互译,并已发布详细的接入教程供开发者参考[^3]。 以下是关于混元模型的一些具体资源: 1. **官方文档链接**: 提供了全面的技术说明以及API调用指南,帮助开发者快速上手并集成到自己的项目中。 - 官方文档地址: [混元模型翻译能力接入教程](https://cloud.tencent.com/document/product/1729/106126)[^3] 2. **学习材料汇总**: 如果希望深入研究混元模型及其背后技术原理,则可参考一份综合性的LLM大模型资料集合,其中包含了大量针对不同层次学习者的教学视频与指导手册[^1]。 3. **业务落地案例分享**: 腾讯在其公开演讲中提到过如何利用混元模型推动各行业的数字化转型进程,在此过程中形成了完整的解决方案框架——即第七阶段所描述的大规模生产环境下的部署策略。 ```python import requests def translate_text(text, source_lang='en', target_lang='zh'): url = "https://api.hunyuan-model.tencentyun.com/v1/translate" payload = { 'text': text, 'source_language': source_lang, 'target_language': target_lang } headers = {'Authorization': 'Bearer YOUR_ACCESS_TOKEN'} response = requests.post(url, json=payload, headers=headers) if response.status_code == 200: result = response.json() return result['translated_text'] else: raise Exception(f"Translation failed with status code {response.status_code}") ``` 上述代码片段展示了如何基于RESTful API接口调用混元模型的服务来完成一段英文字符串向中文转换的任务实例演示。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值