Stable Diffusion再次升级!SDXL1.0大模型的发布让SD的使用体验感更上一层楼!

1.Stable Diffusion XL模型是什么?

SDXL是stabilityai公司推出的最新的图像大模型,可以使用stable diffusion生成Ai图像,SDXL模型与之前的Stable Diffusion v1-v2.1模型相比,使用难度更低,训练参数更大,获得的效果更好。

2.Stable Diffusion XL模型更新了什么?

我将SDXL模型的更新归为两点:更大,更好用。

2.1.【更大】直接输出更大分辨率的图片

SDXL一般使用1024x1024分辨率的图片进行训练,所以直接生成的图片分辨率建议最小也使用1024x1024像素,能生成的图片更加清晰了。之前的模型因为训练所使用的素材以512x512像素,所以在直接输出高分辨率的图片的时候会出现多个主体人物的错乱,是因为ai错以为是在同时输出多张图片。
在这里插入图片描述

而现在可以直接生成1000像素以上的图片,也不会出现错乱的问题。
在这里插入图片描述

图片分辨率的上升带来的图片细节质量的上升,相信之后以sdxl模型能够制作出效果更加惊人的ai图像。

2.2.【更好用】直接输出带文字的图片

首先它最大的更新就是可以直接生成带有文字的图片了,在这之前的任意Ai绘画大模型中,这是不可能实现的,生成的文字部分会出现像字但又不是字的符号。

在这里插入图片描述

现在你可以在提示词中使用“某物品上面写着某某文字”的句式,让SDXL生成出来的图片包含你想要的文字。我尝试了一下,生成的效果越来越接近及格线。

在这里插入图片描述

SDXL能够率先达到文字内容呈现的能力是大幅领先其他ai绘画模型的原因,这个能力的影响我相信是深远的,突破了文字生成的难题,会激活ai生成在更多领域的创新。

2.3.【更好用】更精准的人体解剖结构

SDXL模型能生成更加精准的人体解剖结构,在一定程度上解决了生成的人物有多余的肢体和面部变形的问题。在之前生成的ai人物很容易出现手部错乱,面部扭曲,多胳膊少腿的情况。

在这里插入图片描述

并且想要解决“画手”的难题,需要添加大量的负面提示词,嵌入式模型甚至还需要调用插件,才能保证出图的手不出现严重扭曲。但是现在根据我的测试,sdxl已经初步能够识别人体结构特征了。或许以后我们再也不能通过“手”来辨别一张图是否是ai生成的了。

在这里插入图片描述

2.4.【更好用】同一模型能生成更多的艺术风格

在这里插入图片描述

SDXL模型提供更多的艺术风格。SDXL模型是接近现实世界的照片风格,但是你可以通过提示词的描写轻松的对风格进行修改。根据官方的描述中,至少有十余种风格可以自由切换,
其中包含:无风格、增强、动漫、摄影、数字艺术、漫画书、幻想艺术、模拟电影、霓虹朋克、等距、低聚、折纸、线条艺术、工艺粘土、电影、3D 模型和像素艺术。
以前想要对风格进行切换必须通过下载微调大模型或者lora,之后或许就和midjourney一样操作便捷根本不需要再来回切换模型了。

2.5.【更好用】写提示词更容易了

官方的SDXL模型开始支持使用自然语言写提示词。自然语言可以简单理解为日常说话用的句子,而之前由单词组成的提示词称为tag。
在这里插入图片描述

但是具体之后的sdxl大模型是不是都使用自然语言描述,还需要看训练模型的作者使用是哪种方式。
之前想要输出一张能够看的过去的图片,需要添加许多质量相关的提示词,比如高分辨率,最高质量,4k壁纸等等。
SDXL支持非常少的提示词进行描述,不需要添加过多的质量提示词。
比如简单输入这串提示词【Astronauts standing on the moon, stars, beautiful(一个宇航员站在月球上,星星,漂亮)】,就能出现还不错的效果,如果使用SD1.5和2.0效果却不尽人意。

在这里插入图片描述

这也将逐渐降低sd写提示词的难度,或许之后新接触sd的同学再也不用为了写tag而头疼不已。虽然sdxl大模型有这么多优点,但是他现在还不能在大家普遍使用的webui上发挥他全部的能力,
一是因为配套的插件还不能完全适配,其中就包含最常用的controlnet。
二是因为SDXL相关的微调模型还不是那么多,具体到相关行业的模型更是需要时间的沉淀。
很多博主建议等到SDXL模型的生态健全了再进行使用,我却认为优先熟练掌握SDXL模型的知识,具备先发优势,等到生态健全了,便可无缝切换到新的工作流程中。

3.Stable Diffusion XL模型使用要求

3.1.硬件要求:

显卡最低要求8G显存,推荐使用12G显存以上的N卡。可以使用A卡,但是运行速度会很慢。
内存最低要求32G,内存越多越好。
对CPU没有具体的要求。

3.2.软件要求:

webui需要更新到1.5及以后的版本。

4.Stable Diffusion XL模型下载

SDXL大模型分为两个部分,base和refiner,还有一个配套的vae可以选择性的下载。

在这里插入图片描述

官方发布的模型下载地址:

sdxl-base页面:https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0
sdxl_refienr页面:stabilityai/stable-diffusion-xl-refiner-1.0 · Hugging Face
sdxl_vae页面:stabilityai/sdxl-vae · Hugging Face

国内下载模型的地址:

sdxl-base页面:Stable Diffusion SDXL 正式版|LiblibAI
sdxl_refienr页面:Stable Diffusion SDXL refiner|LiblibAI
国内缺失了vae的下载链接,如果有需要的网盘自取(二选一即可):
夸克网盘:链接:https://pan.quark.cn/s/78ef35832fb3 提取码:PpVL
百度网盘:链接:https://pan.baidu.com/s/1bKAYNU9yI1vn4pIIQlEjAQ?pwd=mfhi 提取码:mfhi

还有一个非常推荐的插件需要下载:refienr插件

由于使用SDXL模型需要在base模型和refiner模型之间来回切换,这个插件可以省去你来回切换base和refiner模型之间的时间。启用之后会自动进行精炼步骤,不用到图生图中切换refienr模型了。
下载链接:
GitHub - wcde/sd-webui-refiner: Webui Extension for integration refiner in generation process
将以上网址复制到webui/扩展/从网址安装/扩展的git仓库网址中,点击安装即可。

在这里插入图片描述

5.Stable Diffusion XL模型使用

根据官方的文档中的建议,使用base模型进行文生图的输出,再将输出的图使用refiner模型在图生图中进行精炼处理,以获得更好的图片效果。
现在我们开始操作,在左上角选择base模型,vae选择“无”或者“SDXL_VAE”。

在这里插入图片描述

在写提示词的时候和其他大模型只有一点不同就是可以根据模型作者的建议,使用更简短的自然语言进行描写,并且用风格提示词对画面风格进行描述即可。
分辨率最小使用1024乘1024分辨率,采样部署可以根据你的电脑配置适当提高一些,一般使用20到50步,采样方法建议使用DPM++2M karrass或者其他DPM++采样器。

在这里插入图片描述

refiner插件点击启用,精炼步骤根据你电脑的配置调整到10到20。然后直接点击生成即可。

在这里插入图片描述

当然,如果觉得使用base模型输出的图片结果已经满意,可以不使用refienr模型进行精炼。

在这里插入图片描述

6.在线使用SDXL模型的方法

如果想要在线使用sdxl有三个途径,
第一是在国内的liblibai上体验,和本地部署的sd差别不大,每天至少有100次免费生成的机会。
哩布哩布Ai在线体验:https://www.liblibai.com/
第二个是到Stability AI公司推出的clipdrop上进行生成,每天免费400张图像,虽然需要排队但是出图很快大概20秒就能够输出4张。
clipdrop体验sdxl:https://clipdrop.co/stable-diffusion
第三是dreamstudio,有一定的免费额度,用完之后需要按生成数量付费购买。
dreamstudio网址:https://beta.dreamstudio.ai/generate

关于AI绘画技术储备

学好 AI绘画 不论是就业还是做副业赚钱都不错,但要学会 AI绘画 还是要有一个学习规划。最后大家分享一份全套的 AI绘画 学习资料,给那些想学习 AI绘画 的小伙伴们一点帮助!

对于0基础小白入门:

如果你是零基础小白,想快速入门AI绘画是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以找到适合自己的学习方案

包括:stable diffusion安装包、stable diffusion0基础入门全套PDF,视频学习教程。带你从零基础系统性的学好AI绘画!

零基础AI绘画学习资源介绍

👉stable diffusion新手0基础入门PDF👈

(全套教程文末领取哈)
在这里插入图片描述

👉AI绘画必备工具👈

在这里插入图片描述

温馨提示:篇幅有限,已打包文件夹,获取方式在:文末

👉AI绘画基础+速成+进阶使用教程👈

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

温馨提示:篇幅有限,已打包文件夹,获取方式在:文末

👉12000+AI关键词大合集👈

在这里插入图片描述

这份完整版的AI绘画全套学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

在这里插入图片描述

<think>好的,我现在需要帮助用户了解Stable Diffusion的工作原理和操作方法,特别是他们提到的图解教程和零基础入门。首先,我需要整理Stable Diffusion的三个主要组成部分:变分自编码器(VAE)、U-Net和文本编码器。用户可能对每个部分的作用不太清楚,所以我要逐一解释。 接下来,用户可能需要知道扩散过程的具体步骤,包括前向扩散和反向去噪。这里需要区分像素空间和潜在空间,解释为什么潜在空间更高效。同时,结合引用中的信息,比如潜在扩散模型(LDM)的优势是降低计算需求,这点很重要,需要强调。 然后,操作方法部分,用户可能想知道如何使用现有的工具或代码来运行Stable Diffusion。需要提到文本编码器如何处理输入提示,以及负面关键词的应用,引用中的通用负面关键词可以作为例子,但也要提醒用户可以自行添加。 关于图解教程,虽然不能直接提供图片,但可以描述结构图的大致内容,比如VAE的编码和解码过程,U-Net的残差连接结构。可能还需要解释扩散模型的插值任务,如引用2提到的,但用户的问题主要集中在原理和操作,这部分可能次要。 需要确保回答符合系统指令:使用正确的中文,数学公式用$...$,独立公式用$$...$$,并且生成相关问题。同时,引用要自然添加在段落末尾。检查是否有遗漏的部分,比如VAE如何压缩图像,U-Net如何逐步去噪,文本编码器的作用等。最后,确保生成的相关问题与用户的问题相关,比如优化方法、应用场景、安装步骤等。</think>### Stable Diffusion 工作原理详解 Stable Diffusion 是**潜在扩散模型(Latent Diffusion Model, LDM)**的典型应用,其核心流程可分为以下三个阶段: --- #### 一、核心组件与作用 1. **变分自编码器(VAE)** - 作用:将高维像素空间(如$512 \times 512$图像)压缩到低维潜在空间(如$64 \times 64$),降低计算复杂度[^3]。 - 数学表达: $$ z = \text{VAE}_\text{encoder}(x),\quad x' = \text{VAE}_\text{decoder}(z) $$ - 优势:潜在空间维度远低于像素空间,训练效率提升约**45%**。 2. **U-Net** - 结构特点:包含残差连接(ResNet)与注意力机制,逐步去除潜在空间中的噪声。 - 扩散过程:通过反向扩散从$z_T$(纯噪声)逐步生成$z_0$(清晰潜在表示)。 3. **文本编码器(CLIP)** - 将文本提示(如"星空下的城堡")转换为条件向量,通过交叉注意力机制指导图像生成。 --- #### 二、扩散过程图解(文字描述) 1. **前向扩散(加噪)** - 对潜在表示$z_0$逐步添加高斯噪声,经过$T$步后得到$z_T \sim \mathcal{N}(0, I)$。 - 每步噪声强度由调度算法(如DDPM、DDIM)控制。 2. **反向去噪(生成)** - U-Net预测当前步的噪声$\epsilon_\theta(z_t, t, \text{text})$,通过迭代更新: $$ z_{t-1} = \frac{1}{\sqrt{\alpha_t}} \left( z_t - \frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}} \epsilon_\theta \right) + \sigma_t \epsilon $$ - 最终将$z_0$通过VAE解码器还原为像素空间图像。 --- #### 三、操作步骤(零基础入门) 1. **输入配置** - 正向提示:描述目标内容(如"A cat wearing sunglasses, cyberpunk style") - 负面提示:排除不需要的元素(如引用[4]提供的"low quality, blurry") 2. **参数调节** - 采样步数:20-50步(步数↑→质量↑,速度↓) - 引导强度(CFG Scale):7-12(值↑→文本对齐↑,多样性↓) - 随机种子:固定种子可复现结果 3. **生成流程** ```python # 伪代码示例 prompt = "星空下的城堡,4K高清" negative_prompt = "低质量,模糊" latent = torch.randn((1,4,64,64)) # 初始化噪声 for t in timesteps: noise_pred = unet(latent, t, text_embeddings) latent = scheduler.step(noise_pred, t, latent) image = vae.decode(latent) ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值