【1211更新】腾讯混元Hunyuan3D-1文/图生3D模型云端镜像一键运行

目录

项目介绍

显存占用

11月21 新增纹理烘焙模块Dust3R

烘焙相关参数:

AutoDL云端镜像

启动说明

标准模型下载


【1212更新】腾讯混元Hunyuan3D-1文图生3D模型云端镜像一键运行

项目介绍

https://github.com/Tencent/Hunyuan3D-1

腾讯混元 3D 生成模型,支持文本和图像条件生成(对于文生3D,支持中/英双语生成)

为了解决现有的3D生成模型在生成速度和泛化能力上存在不足,我们开源了混元3D-1.0模型,可以帮助3D创作者和艺术家自动化生产3D资产。

我们的模型采用两阶段生成方法,在保证质量和可控的基础上,轻量版模型仅需10s即可完成单图生成3D,标准版则大约需要25s。

在第一阶段,我们采用了一种多视角扩散模型,轻量版模型能够在大约4秒内高效生成多视角图像,这些多视角图像从不同的视角捕捉了3D资产的丰富的纹理和几何先验,将任务从单视角重建松弛到多视角重建。

在第二阶段,我们引入了一种前馈重建模型,利用上一阶段生成的多视角图像。该模型能够在大约3秒内快速而准确地重建3D资产。重建模型学习处理多视角扩散引入的噪声和不一致性,并利用条件图像中的可用信息高效恢复3D结构。

最终,该模型可以实现输入任意单视角实现三维生成。

显存占用

  • 标准版模型 需要30GB VRAM (使用 --save_memory需要 24G VRAM ).

  • 轻量版模型 需要 22GB VRAM (使用 --save_memory需要18G VRAM).

  • --save_memory 参数用于减少内存消耗,通过调整算法或数据结构来优化内存使用

--save_memory 参数在某些深度学习框架或库中,如PyTorch,用于在模型训练过程中减少GPU显存的占用。具体来说,这个参数会使得某些模型组件(如网络层)在不需要进行计算时自动移动到CPU内存中,从而节省GPU显存空间。当这些组件再次需要参与计算时,它们会被移回GPU。

这种做法被称为CPU Offloading,它是一种显存节省技术,可以在保持模型性能的同时减少显存的使用,特别适用于显存资源受限的情况。通过将模型的一部分或全部中间变量临时转移到CPU,可以有效地减少GPU显存的占用,同时在需要时再将它们移回GPU以继续计算。这种动态的内存管理策略有助于提高大规模模型训练的效率和可行性。

11月21 新增纹理烘焙模块Dust3R

请注意,这是一个非商业许可证,因此该模块不能用于商业目的。

纹理烘焙是一种在3D建模和渲染中常用的技术,它涉及将模型的材质、光照等信息预先计算并存储为2D纹理,以此来减少实时渲染的计算量,提高渲染效率。这种方法特别适用于将高多边形模型的细节信息转移到低多边形模型上,以保持视觉效果的同时减少性能消耗。

使用Dust3R进行纹理对齐和变形的过程中,Dust3R是一个开源项目,它旨在简化几何3D视觉重建。Dust3R通过一系列操作,包括图像加载、成对处理、预测和全局对齐,来实现3D场景的重建。在纹理烘焙的上下文中,Dust3R可能被用于处理和优化纹理映射,确保在3D模型之间传输纹理数据时,纹理的对齐和变形能够得到有效管理,减少渲染过程中的变形和拉伸问题。

具体来说,Dust3R可以处理图像对,并输出包含3D点信息的预测结果,这些结果可以用于后续的纹理烘焙过程。通过全局对齐器(global_aligner),Dust3R还能够优化预测结果,使得从一个物体投影到另一个几何体上的纹理信息保持准确性。这样,纹理烘焙模块可以利用Dust3R提供的精确3D信息,来实现更好的纹理对齐和变形效果。

烘焙相关参数:

参数默认值描述
--do_bakeFALSE这个参数是一个布尔值,用于指示是否执行烘焙操作。当设置为True时,程序将执行将多视图图像烘焙到网格(mesh)上的操作。烘焙过程中,图像的细节和特征会被捕捉并存储在纹理中,这样可以在渲染时减少计算量,提高效率。如果设置为False,则不会执行烘焙操作。
--bake_align_times3这个参数指定了图像与网格之间对齐的次数。在烘焙过程中,为了确保图像与网格的准确对应,可能需要多次执行对齐操作。这个参数控制了对齐操作的重复次数,以确保图像和网格之间的映射尽可能精确。数值越大,意味着更高的对齐精度,但同时也可能增加计算成本。

注意:如果需要烘焙,请确保--do_bake设置为True并且--do_texture_mapping也设置为True

AutoDL云端镜像

https://www.codewithgpu.com/i/Tencent/Hunyuan3D-1/Hunyuan3D-1.0

镜像大小:25.25GB 第一次拉取镜像较慢,请耐心等候,22分钟左右,

启动成功应该会收到短信通知!

启动说明

  • AutoDL创建实例启动后,点击运行即可

  • 默认端口1080

  • 本地使用「AutoDL-SSH-Tools」转发端口1080

链接:https://pan.quark.cn/s/ee8bef31034c

标准模型下载

注:由于AutoDL系统盘只有30G,只下载了lite模型(4090单显卡可运行)

如需使用标准模型(4090需双卡)可将项目移动到数据盘autodl-tmp下 手动下载

 
mv /root/Hunyuan3D-1 /root/autodl-tmp/Hunyuan3D-1

cd /root/autodl-tmp/Hunyuan3D-1

huggingface-cli download tencent/Hunyuan3D-1 --local-dir weights

### 关于 HunYuan 3D Version 2 的档或使用指南 目前关于腾讯混元系列模型的公开资料主要集中在 HunYuan 3D-1.0 版本上[^1]。然而,对于 HunYuan 3D Version 2 (HunYuan 3D-2),尚未有官方发布的具体档或详细的使用指南被广泛传播。以下是对可能涉及的内容以及基于现有版本推测的相关信息: #### 已知信息总结 1. **HunYuan 3D-1.0 功能概述** HunYuan 3D-1.0 是一个支持本到 3D像到 3D 成功能的强大模型[^2]。它通过统一化的框架设计,在较短的时间内能够成高质量的 3D 资产。 2. **技术背景与成本考量** 使用大规模模型进行三维成的技术路线通常伴随着较高的计算资源需求。无论是神经辐射场 (NeRF) 还是其他形式的 3D 场景表示方法,这些模型都被认为是在当前领域中较为昂贵的选择之一[^3]。 3. **代码细节补充** 在一些具体的实现过程中,例如从本到视频 (T2V) 或者像到视频 (I2V) 的转换任务中,涉及到的关键参数如 `in_chans` 表明了输入数据结构的设计特点[^4]。这可能是未来版本进一步优化的方向之一。 #### 对 HunYuan 3D-2 的假设分析 尽管缺乏直接针对 HunYuan 3D-2 的描述性材料,可以合理猜测其改进方向如下: - 提升效率:减少运行时间和硬件消耗的同时保持甚至提高输出质量。 - 增强功能:扩展至更多模态间的转化能力,比如语音转 3D 形象等新型应用场景。 - 用户友好度增加:提供更简便易用的 API 接口和服务端解决方案以便开发者快速集成到自己的产品当中去。 由于上述内容均为推断性质的结果,并未得到实际验证,请密切关注腾讯官方团队后续发布的新消息来获取最权威准确的信息源。 ```python # 示例代码片段展示如何加载预训练权重件(仅作示意用途) import torch from transformers import AutoModelForVisionTo3DGeneration, AutoFeatureExtractor model_name_or_path = "path/to/hunyuan_3d_v2" feature_extractor = AutoFeatureExtractor.from_pretrained(model_name_or_path) model = AutoModelForVisionTo3DGeneration.from_pretrained(model_name_or_path) image_input = feature_extractor(images=example_image, return_tensors="pt").pixel_values outputs = model(image_input) predicted_3d_model = outputs.reconstructed_3d_object ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

云樱梦海

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值