上一节说的DIT模型,由于预测出来的图像,不可控,所以没有实用价值,所以这里又
出现了Stable Diffusion Model模型,稳定扩散模型.
可以就有了这样一个模型,就可以实现对输出图像的控制,可以看到
SDM模型,主要做了两方面的优化
1.首先降低计算成本,把图片使用VAE,抽取隐变量层的方式,将图像进行压缩,用压缩后的隐变量进行计算,可以将原来的大小压缩到
原尺寸的1/4,这样,还原过来几乎是无损的,因为之前的的VAE压缩的太严重了,所以才会有,有损的现象.
2.然后在Latent Space这个层中进行,diffusion扩散加噪声,和,进行去噪声
3.而且这个过程,可以看到,可以在UNet,去噪声的过程中,给模型,添加参考的images,图片 或者文本 或者semantic map
“semantic map”在计算机科学、人工智能、语言学和认知科学中通常指的是语义图或语义映射。
- 语义图(Semantic Graph):这是一种数据结构,用于表示实体(如概念、对象或事件)之间的关系。在知识表示中,语义图可以用来捕捉和表示复杂的知识结构,包括实体间的层次关系、属性、事件等。