Stability AI推出Stable Diffusion XL 1.0，文本到图像模型

AI 研习所

于 2023-07-29 22:12:54 发布

阅读量1.8k

点赞数

CC 4.0 BY-SA版权

分类专栏： AIGC 人工智能大模型训练文章标签： ai

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/specssss/article/details/132000821

StabilityAI推出了StableDiffusionXL1.0，这是一个拥有35亿参数的文本到图像模型，能生成更高品质的图像，并支持网页上的后期编辑。模型采用基础模型+细化模型架构，支持更简单的提示词，并在RLHF强化后能更好地理解和区分概念。该模型可在8GBVRAM的GPU上运行，并可用于自定义LoRAs和微调。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Stability AI宣布推出Stable Diffusion XL 1.0，这是一个文本到图像的模型，该公司将其描述为迄今为止“最先进的”版本。

Stability AI表示，SDXL 1.0能生成更加鲜明准确的色彩，在对比度、光线和阴影方面做了增强，可生成100万像素的图像（1024×1024）。而且还支持在网页上直接对生成图像进行后期编辑。

提示词也能比之前更简单了。这是因为SDXL 1.0的基础模型参数量达到了35亿，理解能力更强。对比基础版Stable Diffusion，参数量只有10亿左右。由此，SDXL 1.0也成为当前最大规模的开放图像模型之一。

Stability AI博客介绍了SDXL 1.0的更多技术细节。首先，模型在规模和架构上都有了新突破。它创新性地使用了一个基础模型（base model）+一个细化模型（refiner model），二者的参数规模分别为35亿和66亿。

这也使得SDXL 1.0成为目前规模最大的开放图像模型之一。

Stability AI创始人莫斯塔克（Emad Mostaque）表示，更大规模的参数量能让模型理解更多概念，教会它更深层次的东西。同时在SDXL 0.9版本还进行了RLHF强化。

这也是为什么现在SDXL 1.0支持短提示词，而且能分清红场（the Red Square）和一个红色的广场（a Red Square）。

在具体合成过程中，第一步，基础模型产生有噪声的latent，然后由细化模型进行去噪。

其中基础模型也可以作为独立模块使用。这两种模型结合能生成质量更好的图像，且不需要消耗更多计算资源。

测试效果：

安装:

1.克隆回购

git clone git@github.com:Stability-AI/generative-mod

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。