Stable Diffusion XL(SDXL)原理详解

funNLPer

已于 2023-09-11 14:40:56 修改

阅读量2.8k

点赞数

CC 4.0 BY-SA版权

分类专栏： AI算法文章标签： stable diffusion AIGC

于 2023-08-17 21:00:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/orangerfun/article/details/132240292

AI算法专栏收录该内容

26 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了Stable Diffusion XL（SDXL）模型的原理和改进，包括更大的Unet backbone、训练技巧如图像尺寸条件化、图像裁剪参数条件、多尺度训练以及refiner模块。相较于前代SD模型，SDXL在图像质量和细节上有显著提升，且在与SOTA模型的比较中表现出色。此外，文章还探讨了SDXL的局限性及未来改进方向。

在这里插入图片描述

😘关注公众号funNLPer畅读全文😘

技术报告：SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis
官方代码：Stability-AI-generative-models
模型权重：HuggingFace-Stability AI
非官方代码：Linaqruf/kohya-trainer
diffuser库：diffusers/pipelines/stable_diffusion_xl

文章目录

1. SDXL原理
2. SDXL效果
3. SDXL局限性
4. 参考

通过各种实验验证，SDXL已经超越了先前发布的各种版本的Stable Diffusion，并且与当前未开源的文生图SOTA模型（如midjorney）具有不相上下的效果。本文将介绍SDXL相比于之前的SD（SD1.5， SD2.0等）改进之处。相比之前各个版本的SD，SDXL 的主要改进之处在于：

使用了更大的Unet backbone，大约是之前版本SD的3倍
使用了几个简单但是非常有效的训练技巧，包括图像尺寸条件化策略，图像裁剪参数条件化以及多尺度训练等
增加了一个refinement 模块来改善生成图片的质量

本文主要根据技术报告SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis来讲解SDXL的原理，在下一篇文章中我们会通过源码解读来进一步理解SDXL的改进点。

1. SDXL原理

1.1 整体架构

SDXL和之前的版本一样也是基于latent diffusion架构，对于latent diffusion，首先会采用一个autoencoder模型来图像压缩为latent，然后扩散模型用来生成latent，生成的latent可以通过autoencoder的decoder来重建出图像。SDXL整体模型结构如下图所示：

了解本专栏

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。