
😘关注公众号funNLPer畅读全文😘
技术报告:SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis
官方代码:Stability-AI-generative-models
模型权重:HuggingFace-Stability AI
非官方代码:Linaqruf/kohya-trainer
diffuser库:diffusers/pipelines/stable_diffusion_xl
文章目录
通过各种实验验证,SDXL已经超越了先前发布的各种版本的Stable Diffusion,并且与当前未开源的文生图SOTA模型(如midjorney)具有不相上下的效果。本文将介绍SDXL相比于之前的SD(SD1.5, SD2.0等)改进之处。相比之前各个版本的SD,SDXL 的主要改进之处在于:
- 使用了更大的Unet backbone,大约是之前版本SD的3倍
- 使用了几个简单但是非常有效的训练技巧,包括图像尺寸条件化策略,图像裁剪参数条件化以及多尺度训练等
- 增加了一个refinement 模块来改善生成图片的质量
本文主要根据技术报告SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis来讲解SDXL的原理,在下一篇文章中我们会通过源码解读来进一步理解SDXL的改进点。
1. SDXL原理
1.1 整体架构
SDXL和之前的版本一样也是基于latent diffusion架构,对于latent diffusion,首先会采用一个autoencoder模型来图像压缩为latent,然后扩散模型用来生成latent,生成的latent可以通过autoencoder的decoder来重建出图像。SDXL整体模型结构如下图所示:
本文详细介绍了Stable Diffusion XL(SDXL)模型的原理和改进,包括更大的Unet backbone、训练技巧如图像尺寸条件化、图像裁剪参数条件、多尺度训练以及refiner模块。相较于前代SD模型,SDXL在图像质量和细节上有显著提升,且在与SOTA模型的比较中表现出色。此外,文章还探讨了SDXL的局限性及未来改进方向。
订阅专栏 解锁全文
1303

被折叠的 条评论
为什么被折叠?



