Stable Diffusion XL网络结构-超详细原创

原创已于 2023-11-21 16:22:15 修改 · 置顶 · 6.8k 阅读

·

26

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#stable diffusion

于 2023-11-21 15:27:59 首次发布

本文详细解析了StableDiffusion1.5模型的网络结构，特别关注了Unet部分，包括CrossAttnDownBlock2D和CrossAttnUpBlock2D的变化，以及如何融入CLIP技术。作者解释了时间ID的使用和训练技巧。

部署运行你感兴趣的模型镜像

强烈推荐先看本人的这篇

Stable Diffusion1.5网络结构-超详细原创-优快云博客

1 Unet

1.1 详细整体结构

1.2 缩小版整体结构

以生成图像1024x1024为例，与SD1.5的3个CrossAttnDownBlock2D和CrossAttnUpBlock2D相比，SDXL只有2个，但SDXL的CrossAttnDownBlock2D模块有了更多的Transformer模块，且只进行了两次下采样，具体的往下看

1.2.1 DownBlock2D

1.2.1.1 ResBolck2D

和SD1.5不一样的是，多了time_id这个输入，表示origin_size, target_size,以及裁剪坐标，比如图中的time_id＝[[1024, 1024, 0, 0, 1024, 1024],[1024, 1024, 0, 0, 1024, 1024]]

有一半是负向提示词，以[1024, 1024, 0, 0, 1024, 1024],为例，两个[1024, 1024]表示origin_size, target_size，[0, 0]是裁剪坐标，这是SDXL在训练的时候用了一些trick,把原始输入图像和目标图像的大小，以及裁剪坐标也作为条件参与训练

Downsample2D通过步长为2的卷积进行下采样

1.2.2 CrossAttnDownBlock2D

CrossAttnDownBlock2D_1

CrossAttnDownBlock2D_1表示第一个CrossAttnDownBlock2D，它的Transformer2DModel有两个BasicTransformerBlock，而SD1.5的Transformer2DModel只有一个BasicTransformerBlock

CrossAttnDownBlock2D_2

CrossAttnDownBlock2D_2表示第2个CrossAttnDownBlock2D，它的Transformer2DModel有10个BasicTransformerBlock

1.2.3 UnetMidBlock2DCrossAttn

其中的Transformer2DModel有10个BasicTransformerBlock

1.2.4 CrossAttnUpBlock2D

CrossAttnUpBlock2D_2

CrossAttnUpBlock2D_2表示第2个CrossAttnUpBlock2D，它的Transformer2DModel有10个BasicTransformerBlock，UpSample2D和SD1.5结构一致

CrossAttnUpBlock2D_1

CrossAttnUpBlock2D_1表示第21个CrossAttnUpBlock2D，它的Transformer2DModel有2个BasicTransformerBlock

未完待续

2 CLIP

您可能感兴趣的与本文相关的镜像

GPT-oss:20b

GPT-oss:20b

图文对话

Gpt-oss

GPT OSS 是OpenAI 推出的重量级开放模型，面向强推理、智能体任务以及多样化开发场景

9 条评论

atregret 2025.04.03
写写写，别摸鱼啦

ZeroRegister 2025.03.06
太好了，之前看sd1.5就是博主的文章，结果也出了sd xl的，支持一波

魔法少女小i 2024.12.16
哥，求你快写

junliang360 2024.07.23
博主太牛了期待更新呀

qq1292478023 2024.07.08
博主，clip部分什么时候能补充上，很期待

m0_51981798 2024.05.28
博主太牛辣，求更一个stable diffusion 1.4 的

qq_46334886 2024.04.02
很有价值，期待更新

优快云-Ada助手 2023.11.22
恭喜你这篇博客进入【优快云每天值得看】榜单，全部的排名请看 https://bbs.youkuaiyun.com/topics/617614328。

评论 8

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。