StyleDrop-PyTorch: 文本到图像生成任意风格的官方教程

经梦鸽

于 2025-04-14 17:00:56 发布

阅读量890

点赞数 19

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00406/article/details/147227995

StyleDrop-PyTorch: 文本到图像生成任意风格的官方教程

StyleDrop-PyTorch This is an unofficial PyTorch implementation of StyleDrop: Text-to-Image Generation in Any Style. 项目地址: https://gitcode.com/gh_mirrors/sty/StyleDrop-PyTorch

1. 项目介绍

StyleDrop-PyTorch 是一个基于 PyTorch 的开源项目，它实现了 StyleDrop: 文本到图像生成任意风格的技术。该项目允许用户根据文本提示生成具有特定风格的图像，可以广泛应用于艺术创作、图像编辑以及个性化内容生成等领域。

2. 项目快速启动

环境准备

首先，确保安装了以下依赖项：

conda install pytorch torchvision torchaudio cudatoolkit=11.3
pip install accelerate==0.12.0 absl-py ml_collections einops wandb ftfy==6.1.1 transformers==4.23.1 loguru webdataset==0.2.5 gradio

数据和权重准备

下载 VQGAN 模型并放置于 assets/vqgan_jax_strongaug.ckpt。
从项目提供的链接下载预训练的权重文件，放置于 assets/ckpts 目录下。
运行以下命令准备 empty_feature：

python extract_empty_feature.py

训练

将所有风格数据放置于 data 目录中，并修改 data/one_style.json 文件（确保该文件与风格数据在同一目录下），格式如下：

{
    "image_03_05.jpg": [
        "A bear",
        "in kid crayon drawing style"
    ]
}

运行以下命令开始训练：

unset EVAL_CKPT
unset ADAPTER
export OUTPUT_DIR="output_dir/for/this/experiment"
accelerate launch --num_processes 8 --mixed_precision fp16 train_t2i_custom_v2.py --config=configs/custom.py

推断

下载预训练的 style_adapter 权重并放置于指定路径，然后运行以下命令进行推断：

export EVAL_CKPT="assets/ckpts/cc3m-285000.ckpt"
export ADAPTER="path/to/your/style_adapter"
export OUTPUT_DIR="output/for/this/experiment"
accelerate launch --num_processes 8 --mixed_precision fp16 train_t2i_custom_v2.py --config=configs/custom.py