VFusion3D开源项目使用教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00191/article/details/147022701

VFusion3D开源项目使用教程

vfusion3d [ECCV 2024] Code for VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models 项目地址: https://gitcode.com/gh_mirrors/vf/vfusion3d

1. 项目介绍

VFusion3D是一个基于视频扩散模型训练的大型前馈3D生成模型。它能够利用少量的3D数据和大量的合成多视角数据来进行训练。作为迈向3D基础模型的一步，VFusion3D是首个探索可扩展3D生成/重建模型的工作。

2. 项目快速启动

环境搭建

首先，需要克隆项目仓库：

git clone https://github.com/facebookresearch/vfusion3d.git
cd vfusion3d

项目提供了一个简单的安装脚本，默认情况下会设置一个包含Python 3.8.19、PyTorch 2.3和CUDA 12.1的conda环境。类似版本的软件包也应该可以正常工作。

source install.sh

模型权重下载

模型权重可在Google Drive和Hugging Face上找到。下载后将其放置在./checkpoints/目录下。

图像准备

项目中提供了样本输入，位于assets/40_prompt_images目录下，这是论文中使用的40个MVDream提示生成的图像。

推断

运行以下脚本以获取3D资源。可以通过设置--export_video和--export_mesh标志来指定输出格式。

# 渲染视频
python -m lrm.inferrer --export_video --resume ./checkpoints/vfusion3dckpt

# 导出网格
python -m lrm.inferrer --export_mesh --resume ./checkpoints/vfusion3dckpt

3. 应用案例和最佳实践

视频生成：使用前视图（或接近前视图）的输入图像可以获得最佳的视频生成效果。
网格导出：对于网格导出，如果遇到GPU内存不足的问题，可以尝试减少--render_size参数到256或128。
自定义视角：虽然模型支持任意视角的输入图像，但如果需要调整视角，需要修改lrm/inferrer.py文件中的canonical_camera_extrinsics设置。