02:从文生图初窥Stable Diffusion,一键玩转AI绘画

文章介绍了StableDiffusion的架构,特别是文生图部分,通过CLIP处理文本提示词,tokenizer分词转换,Embedding生成向量,Texttransformer生成conditioning,noisepredictor驱动图片生成,以及U-Net在Latent空间中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

Stable Diffusion是一个什么架构呢,或者说是由哪些部分构成,各自发挥着怎么样的作用。我们就先从文生图开始探索

文生图

我们打开Stable Diffusion的webui,然后选择Stable Diffusion模型,然后选择VAE模型,CLIP终止层数选择默认为2。

然后在文生图的提示词里面写入:美女,动漫风格,long hair,blue_hair,purple eyes,4K这些文字,在(里面的英文是自动转换的)。然后就是下面的参数:

  1. 迭代步数:默认为20,这里我调成了30
  2. 采样方法:DPM++ 2M Karras
  3. 提示引导词:默认值0.7
  4. 随机数种子:随机数种子一致,同样配置生成的图片才能一样。

然后点击生成,Stable Diffusion就生成了一张图片。

那么,上面配置的众多参数是干什么的&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值