RAG-Diffusion 使用教程

最新推荐文章于 2025-05-19 09:41:41 发布

秋玥多

最新推荐文章于 2025-05-19 09:41:41 发布

阅读量706

点赞数 25

本文链接：https://blog.youkuaiyun.com/gitblog_00015/article/details/146995421

版权

RAG-Diffusion 使用教程

RAG-Diffusion Region-Aware Text-to-Image Generation via Hard Binding and Soft Refinement 🔥 项目地址: https://gitcode.com/gh_mirrors/ra/RAG-Diffusion

1. 项目介绍

RAG-Diffusion 是由南京大学 PCALab 开发的一个区域感知的文本到图像生成方法。该方法通过区域描述进行精确的布局组成，实现了对生成图像的细粒度空间控制。RAG-Diffusion 旨在解决传统方法在控制生成图像时存在的限制，如引入可训练模块或使用注意力掩码操作分数图。项目通过将多区域生成分解为两个子任务——确保区域提示正确执行的个体区域构建（区域硬绑定）和增强相邻交互的整体细节细化（区域软细化），从而提高了生成图像的质量和灵活性。

2. 项目快速启动

在开始之前，请确保您的环境中已安装了以下依赖项：

conda create -n RAG python==3.9
conda activate RAG
pip install xformers==0.0.28.post1 diffusers peft torchvision==0.19.1 opencv-python==4.10.0.84 sentencepiece==0.2.0 protobuf==5.28.1 scipy==1.13.1

以下是一个快速启动的示例代码：

import torch
from RAG_pipeline_flux import RAG_FluxPipeline

# 加载预训练模型
pipe = RAG_FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-dev", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")

# 设置提示信息和参数
prompt = "a balloon on the bottom of a dog"
HB_replace = 2
HB_prompt_list = ["Balloon", "Dog"]
HB_m_offset_list = [0.1, 0.1]
HB_n_offset_list = [0.55, 0.05]
HB_m_scale_list = [0.8, 0.8]
HB_n_scale_list = [0.4, 0.45]
SR_delta = 1.0
SR_hw_split_ratio = "0.5; 0.5"
SR_prompt = "A playful dog, perhaps a golden retriever, with its ears perked up, sitting on the balloon, giving an enthusiastic demeanor. BREAK A colorful balloon floating gently, its string dangling gracefully, just beneath the dog."

# 生成图像
height, width = 1024, 1024
seed = 1234
image = pipe(
    SR_delta=SR_delta,
    SR_hw_split_ratio=SR_hw_split_ratio,
    SR_prompt=SR_prompt,
    HB_prompt_list=HB_prompt_list,
    HB_m_offset_list=HB_m_offset_list,
    HB_n_offset_list=HB_n_offset_list,
    HB_m_scale_list=HB_m_scale_list,
    HB_n_scale_list=HB_n_scale_list,
    HB_replace=HB_replace,
    seed=seed,
    prompt=prompt,
    height=height,
    width=width,
    num_inference_steps=20,
    guidance_scale=3.5,
)

# 保存图像
filename = "RAG.png"
image[0].save(filename)
print(f"Image saved as {filename}")