U-DiT项目使用与启动教程

U-DiT项目使用与启动教程

U-DiT [NeurIPS 2024] The official code of "U-DiTs: Downsample Tokens in U-Shaped Diffusion Transformers" U-DiT 项目地址: https://gitcode.com/gh_mirrors/ud/U-DiT

1. 项目介绍

U-DiT(Downsample Tokens in U-Shaped Diffusion Transformers)是一个基于U-Net架构和Transformer的图像生成模型。该项目是NeurIPS 2024的官方代码实现,其主要创新点在于通过在Transformer中引入U-Net的降采样特性,以减少计算成本并提高模型性能。U-DiT-B模型能够在保持与DiT-XL/2相当性能的同时,仅使用其1/6的计算量(FLOPs)。

2. 项目快速启动

环境准备

在开始之前,您需要确保已经安装了以下依赖项:

pip install -r requirements.txt

数据准备

U-DiT模型可以使用原始的ImageNet数据集进行训练,或者使用VAE编码后的特征进行训练(推荐)。以下为数据准备的步骤:

  • 使用原始ImageNet数据集:
    • 首先下载ImageNet数据集。
    • 使用以下命令进行训练:
torchrun --nnodes=1 --nproc_per_node=8 train.py --data-path={path to imagenet/train} --image-size=256 --model={model name} --epochs={iteration//5000}
  • 使用VAE特征进行训练(推荐):
    • 下载ImageNet的VAE特征。
    • 解压下载的文件。
    • 在训练命令中添加--feature-path={path to imagenet_feature}参数。

模型训练

  • FP32训练:
torchrun --nnodes=1 --nproc_per_node=8 train.py --data-path {path to imagenet/train} --image-size=256 --model={model name} --epochs={iteration//5000}
  • FP16训练:
accelerate launch --mixed_precision fp16 train_accelerate.py --data-path {path to imagenet/train} --image-size=256 --model={model name} --epochs={iteration//5000}

模型采样

使用以下命令进行并行采样:

torch --nnodes=1 --nproc_per_node=8 sample_ddp.py --ckpt={path to checkpoint} --image-size=256 --model={model name} --cfg-scale={cfg scale}

性能评估

从以下位置借用FID评估代码,并按照以下命令进行性能评估:

python evaluator.py {path to reference batch} {path to generated .npz}

3. 应用案例和最佳实践

U-DiT模型可以用于多种图像生成任务,例如图像修复、风格迁移等。最佳实践建议在训练前使用VAE特征以加快训练速度,并在模型训练时使用适当的降采样策略以提高效率。

4. 典型生态项目

U-DiT模型建立在DiT(Dual-Attention Transformer)的基础上,并与之兼容。它可以使用DiT的生态项目,如训练工具、模型权重和预训练特征等。此外,U-DiT社区也提供了一系列的Colab演示和长期训练结果的展示。

U-DiT [NeurIPS 2024] The official code of "U-DiTs: Downsample Tokens in U-Shaped Diffusion Transformers" U-DiT 项目地址: https://gitcode.com/gh_mirrors/ud/U-DiT

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

孙典将Phyllis

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值