这几天AI绘画界最轰动的消息莫过于Stable Diffusion 3(简称SD3)的发布。SD3是一个多模态的 Diffusion Transformer
模型,其在图像质量、排版、复杂提示理解和资源效率方面具有显著提升。
废话不多说,先给大家看看我使用SD3生成的几张图片:
SD3介绍
SD3是一个多模态的 Diffusion Transformer 模型,这个模型有什么特点呢?这里给大家简单拆解下:
多模态
:这个词大家可能比较陌生,不过也很简单,就是一个模型中有多个子模型,它们分别处理不同方面的任务,让模型的整体能力更强。在SD3内部,模型先将文本和图像分为两个子模型,然后在后续的处理中又把它们连接起来。通过这种方法,允许图像和文本令牌之间的信息流动,以改善生成输出的整体理解和排版。
Diffusion
:这个大家可能都很熟悉了,SD这个名字中就包含它。扩散模型的训练过程是先向图片中增加噪音,噪音可以看作图片中的小雪花,一张完全噪音图可以看作为没有信号时的电视画面,然后扩散模型再学习根据文本提示词逐步去除噪音、还原图片。添加噪音的过程就是扩散(Diffusion,逐步将图片转换为完全噪音图),根据提示词将噪音图还原为图片的过程称为反向扩散(从完全噪音图生成出目标图像)。我们生成图片的过程是其中的反向扩散。
Transformer :自从OpenAI给大家展示了Sora的惊艳效果后,各种AI模型都开始向 Transformer
这一架构靠近。Transformer
这一架构最初用在自然语言翻译上,后来在大语言模型(GPT、LLama等)上取得了巨大的成功,通过它进行的机器学习效果都不错。所以SD也从之前使用的UNet架构迁移到了Transformer架构。
这几个名词有一些简称,为了方便大家识别,这里也简单说明下:
-
Diffusion Transformer 简称为 DiT。
-
Multimodal Diffusion Transformer 简称为 MMDiT,其中 Multimodal 是多模态的意思。
使用SD3 Medium
本次发布,Stability
AI只公