VFusion3D开源项目使用教程
1. 项目介绍
VFusion3D是一个基于视频扩散模型训练的大型前馈3D生成模型。它能够利用少量的3D数据和大量的合成多视角数据来进行训练。作为迈向3D基础模型的一步,VFusion3D是首个探索可扩展3D生成/重建模型的工作。
2. 项目快速启动
环境搭建
首先,需要克隆项目仓库:
git clone https://github.com/facebookresearch/vfusion3d.git
cd vfusion3d
项目提供了一个简单的安装脚本,默认情况下会设置一个包含Python 3.8.19、PyTorch 2.3和CUDA 12.1的conda环境。类似版本的软件包也应该可以正常工作。
source install.sh
模型权重下载
模型权重可在Google Drive和Hugging Face上找到。下载后将其放置在./checkpoints/
目录下。
图像准备
项目中提供了样本输入,位于assets/40_prompt_images
目录下,这是论文中使用的40个MVDream提示生成的图像。
推断
运行以下脚本以获取3D资源。可以通过设置--export_video
和--export_mesh
标志来指定输出格式。
# 渲染视频
python -m lrm.inferrer --export_video --resume ./checkpoints/vfusion3dckpt
# 导出网格
python -m lrm.inferrer --export_mesh --resume ./checkpoints/vfusion3dckpt
3. 应用案例和最佳实践
- 视频生成:使用前视图(或接近前视图)的输入图像可以获得最佳的视频生成效果。
- 网格导出:对于网格导出,如果遇到GPU内存不足的问题,可以尝试减少
--render_size
参数到256或128。 - 自定义视角:虽然模型支持任意视角的输入图像,但如果需要调整视角,需要修改
lrm/inferrer.py
文件中的canonical_camera_extrinsics
设置。
4. 典型生态项目
目前没有明确列出与VFusion3D相关的典型生态项目。但是,任何涉及3D重建、动画制作或视觉效果的项目都可能从VFusion3D的技术中受益。开发者可以探索将VFusion3D集成到这些项目中,以实现更高效、更高质量的3D内容生成。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考