LT3SD: 3D场景生成最佳实践教程

LT3SD: 3D场景生成最佳实践教程

lt3sd [ CVPR 2025 ] We introduce LT3SD, a novel latent 3D scene diffusion approach enabling high-fidelity generation of infinite 3D environments in a patch-by-patch and coarse-to-fine fashion. lt3sd 项目地址: https://gitcode.com/gh_mirrors/lt/lt3sd

1. 项目介绍

LT3SD(Latent Trees for 3D Scene Diffusion)是一个开源项目,旨在通过潜树表示和扩散模型实现大规模、高质量的3D场景生成。该项目利用潜树结构有效编码3D场景的低频几何和高频细节,通过粗到细的层次结构,实现了一个生成扩散过程,可以在不同的分辨率级别对场景的潜成分进行建模。

2. 项目快速启动

克隆仓库

首先,您需要克隆LT3SD的GitHub仓库:

git clone --recursive https://github.com/quan-meng/lt3sd.git

创建虚拟环境

接着,创建一个conda虚拟环境,并激活它:

conda create --name lt3sd python=3.10
conda activate lt3sd

安装依赖

然后,在虚拟环境中安装所需的依赖:

pip install -r requirements.txt

数据处理

在开始训练之前,需要准备数据集。您需要申请3D-FUTURE数据集,并解压相应的文件。之后,修改configs/dataset中的输出目录,然后运行以下命令来导出场景网格和计算TUDF体素栅格:

python data/export_mesh.py export_houses --output_semantic_bbox --add_floor
cd third_parties/sdf-gen
mkdir build && cd build
cmake ..
make
cp -r bin/sdf_gen ../../../tools
python data/export_volume.py --voxel_size 0.022 --num_level 4 --with_bbox

请注意,一些场景中不正确的家具比例可能会导致内存溢出错误,这些场景会自动被跳过。

训练

分为两个阶段的训练:

第一阶段
python first_stage.py --slurm.slurm_job_name 'train_1st_stage' --slurm.gpus_per_node 1 --slurm.slurm_constraint '[rtx_a6000]' --slurm.nodes 2 --levels 'tudf_0p088_0p176' 'tudf_0p022_0p088'

确保在configs/opt中指定训练日志路径。

第二阶段
python second_stage.py --slurm.slurm_job_name 'train_2nd_stage' --slurm.gpus_per_node 1 --slurm.slurm_constraint '[rtx_a6000]' --slurm.nodes 2 --first_stage_dir <FIRST-STAGE-DIR> --levels 'tudf_0p088_0p176' 'tudf_0p022_0p088' --batch_size 8 --model.chunk_shape 32 16 32 --model.start_level 'tudf_0p088_0p176' model.first-stage-config:ae

<FIRST-STAGE-DIR>替换为第一阶段日志目录。

3. 应用案例和最佳实践

  • 数据预处理:确保在训练之前对数据集进行了正确的预处理,包括网格导出和体素栅格计算。
  • 训练细节:在训练过程中,注意GPU内存的使用,避免内存溢出。适当调整批次大小以适应不同的硬件配置。
  • 模型评估:定期评估模型性能,使用验证集来监控模型的质量和发散情况。

4. 典型生态项目

LT3SD项目基于以下开源项目构建:

  • LDMs:用于3D场景生成的先潜扩散模型。
  • MultiDiffusion:多尺度扩散模型。
  • SDFusion:基于体素栅格的3D场景融合技术。

通过这些项目的结合,LT3SD实现了高效的3D场景生成。

lt3sd [ CVPR 2025 ] We introduce LT3SD, a novel latent 3D scene diffusion approach enabling high-fidelity generation of infinite 3D environments in a patch-by-patch and coarse-to-fine fashion. lt3sd 项目地址: https://gitcode.com/gh_mirrors/lt/lt3sd

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

姚喻蝶Kerry

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值