本入门指南适用于对稳定扩散、Flux 或其他 AI 图像生成器毫无经验的新手。它将为您概述稳定扩散/Flux AI 以及从何处开始。
目录
什么是稳定扩散?
Stable Diffusion AI是一种用于生成 AI 图像的潜在扩散模型。图像可以是照片级逼真的,就像相机拍摄的图像一样,也可以是艺术级的,就像由专业艺术家制作的一样。
最棒的是,它是免费的。你可以在电脑上运行它,也可以付费在线使用。
我将在本文的后面部分讨论使用稳定扩散和通量的选项。但如果您等不及了,请获取快速入门指南并直接深入了解。
如何使用稳定扩散?
你所需要的只是一个描述图像的提示。例如:
姜饼屋,透视模型,焦点,白色背景,烤面包,脆麦片
稳定扩散将此提示转变为像下面这样的图像。
您可以从同一个提示中生成任意数量的变体。
稳定扩散有什么优势?
有类似的文本到图像生成服务,如OpenAI 的 DALLE和MidJourney。为什么选择 Stable Diffusion?Stable Diffusion AI 的优势在于
- 开源:许多爱好者创建了免费的工具和模型。
- 专为低功耗计算机设计:运行免费或成本低廉。
稳定扩散 AI 是免费的吗?
在您自己的Windows或Mac机器上运行时,Stable Diffusion 是免费使用的。在线服务需要您支付少量费用。
我来了!如何开始使用 Stable Diffusion 和 Flux AI?
有很多方法可以使用稳定扩散和通量 AI 模型。你需要决定:
- 在您的电脑上运行还是使用在线服务?
- 您想使用哪种 GUI?
在线生成器
对于初学者,我建议使用免费的在线生成器。您可以立即开始生成,而无需进行任何设置。
生成一些图像,看看 AI 图像是否适合您。
在您的电脑上运行
最好的 PC 选项是使用 Nvidia GPU 卡运行 Windows。大多数 AI 模型都针对 Nvidia GPU 进行了优化。AMD GPU 开始受到关注,但要使用它们需要克服重重困难。GPU 的 VRAM 越多,您需要的麻烦就越少
您需要 Apple Silicon (M1/M2/M3/M4) 才能在 Mac 上运行。
高级 GUI
免费在线生成器的缺点是功能非常有限。
如果您已经不再需要高级 GUI(图形用户界面),请使用高级 GUI。您可以使用各种工具。以下是其中的一些:
- 高级提示技巧。
- 使用Inpainting重新生成图像的一小部分。
- 根据输入图像生成图像(图像到图像)
- 通过给出指令来编辑图像。
- 使用参考图控制构图 ( ControlNet )
最流行的 GUI 是:
- AUTOMATIC1111 – 易于使用,但开发滞后。仅支持稳定扩散。
- Forge – 源自 A1111。支持稳定扩散和 Flux AI。速度很快,但某些 A1111 扩展不起作用。
- ComfyUI – 学习难度低。支持 Stable Diffusion 和 Flux。
请参阅快速入门指南,了解如何在本地或在 Google Colab 上进行设置。
稳定扩散能做什么?
1. 从文本生成图像
Stable Diffusion 最基本的用法是文本转图像 (txt2img)。以下是一些可以使用 Stable Diffusion 生成的图像示例。
动漫风格
写实风格
景观
幻想
艺术风格
动物
学习如何生成动物。
2. 从图像生成图像
图像到图像 (img2img)使用稳定扩散 AI 将一张图像转换为另一张图像。
下面是将我绘制的苹果转换为照片般逼真的苹果的示例。(教程)
图像到图像根据输入图像和提示生成图像库。
3. 照片编辑
您可以使用修复功能重新生成AI或真实图像的一部分。这与 Photoshop 的新生成填充功能相同,但免费。
4.制作视频
制作带有 Stable Diffusion 的视频主要有两种方式:(1)来自文本提示和(2)来自另一个视频。
Deforum是一种流行的通过文本提示制作视频的方法。你可能在社交媒体上看到过其中一种。它看起来像这样。
第二种方法是使用稳定扩散来风格化视频。请参阅视频到视频教程。
原来的
动画片
这是一个比较高级的话题。在深入研究之前,最好先掌握文本转图像和图像转图像。
如何构建一个好的提示?
要写出好的提示,需要学习很多东西。但最基本的是尽可能详细地描述你的主题。确保包含有力的关键词来定义风格。
使用提示生成器是学习分步过程和重要关键词的好方法。对于初学者来说,学习一组强大的关键词及其预期效果至关重要。这就像学习一门新语言的词汇一样。您还可以在此处找到关键字和注释的简短列表。
生成高质量图像的捷径是重复使用现有提示。前往提示集合,选择您喜欢的图像,然后窃取提示!缺点是您可能不明白为什么它会生成高质量图像。阅读说明并更改提示以查看效果。
或者,使用PlaygroundAI等图片收集网站。挑选一张你喜欢的图片,重新混合提示。但对于高质量的提示来说,这可能就像大海捞针。
将提示作为起点。修改以满足您的需求。
构建良好提示的经验法则
两条规则:(1)详细、具体;(2)使用有力的关键词。
详细而具体
尽管人工智能技术日新月异,但稳定扩散仍然无法读懂你的想法。你需要尽可能详细地描述你的形象。
假设你想生成一张街景中的女人的照片。一个简单的提示
一名街上的女人
给你这样的图像:
好吧,你可能不想生成一个奶奶,但这在技术上符合你的提示。你不能责怪稳定扩散……
所以,你应该多写。
一位年轻女士,棕色的眼睛,头发上有亮点,微笑,穿着时尚的商务休闲装,坐在外面,安静的城市街道,边缘照明
看到巨大的差异。所以,努力提高你的提示构建技能吧!
使用有力的关键词
有些关键词比其他关键词更有力。例如:
- 名人名字(例如 Emma Watson)
- 艺术家姓名(例如梵高)
- 艺术媒介(例如插图、绘画、照片)
谨慎使用它们可以将图像引导至您想要的方向。
您可以在构建提示的基础知识中了解有关提示构建和示例关键字的更多信息。
想作弊吗?就像做作业一样,您可以使用ChatGPT生成提示!
这些参数是什么?我应该更改它们吗?
大多数在线生成器允许您更改一组有限的参数。以下是一些重要的参数:
- 图像大小:输出图像的大小。标准尺寸为 512×512 像素。将其更改为纵向或横向尺寸会对图像产生很大影响。例如,使用纵向尺寸可生成全身图像。
- 采样步骤:至少使用 20 步。如果图像模糊,请增加步骤。
- CFG 比例:典型值为 7。如果您希望图像更加遵循提示,请增加该值。
- 种子值:-1 生成随机图像。如果您想要相同的图像,请指定一个值。
请参阅其他设置的建议。
我应该生成多少张图像?
在测试提示时,您应该始终生成多幅图像。
当对提示进行较大修改时,我会一次生成 2-4 张图片,这样可以加快搜索速度。当进行较小修改时,我会一次生成 4 张图片,以增加看到有用内容的机会。
有些提示只有一半或更少的时间有效。所以不要仅凭一张图片就否定提示。
修复图像缺陷的常用方法
当您在社交媒体上看到令人惊叹的 AI 图像时,它们很可能经过了一系列后期处理步骤。我们将在本节中介绍其中的一些步骤。
面部修复
左图:原始图像。右图:面部修复后。
在 AI 艺术家社区中,众所周知稳定扩散不擅长生成人脸。生成的脸部通常带有伪影。
我们经常使用经过训练用于恢复人脸的图像 AI 模型,例如CodeFormer,AUTOMATIC1111 GUI 内置了对它的支持。查看如何启用它。
你知道 v1.4 和 v1.5 模型有更新来修复眼睛吗?查看如何安装VAE。
通过修复修复小瑕疵
第一次尝试很难得到你想要的图像。更好的方法是生成一张构图良好的图像。然后用修复来修复缺陷。
下面是修复前后图像的示例。使用原始提示进行修复的概率为 90%。
左图:有缺陷的原始图像。右图:通过修复修复了脸部和手臂。
还有其他方法可以解决问题。阅读更多有关修复常见问题的信息。
什么是定制模型?
Stability AI 及其合作伙伴发布的官方模型称为基础模型。基础模型的一些示例包括 Stable Diffusion 1.4、1.5、2.0和2.1。
自定义模型是从基础模型训练而来的。目前,大多数模型都是从 v1.4 或 v1.5 训练而来的。它们使用额外的数据进行训练,以生成特定风格或对象的图像。
自定义模型没有限制。可以是动漫风格、迪士尼风格,也可以是其他 AI 的风格。任你选择。
以下是 5 种不同模型的比较。
由 5 种不同模型生成的图像。
还可以轻松合并两个模型以创建一种风格。
我应该使用哪种模型?
如果你是初学者,请坚持使用基础模型。有很多东西可以学习和玩,可以让你忙上几个月。
Stable Diffusion 的三个主要版本是 v1、v2 和 Stable Diffusion XL (SDXL)。
- v1型号是1.4和1.5。
- v2 型号是 2.0 和 2.1。
- SDXL 1.0
您可能认为应该从较新的 v2 模型开始。人们仍在尝试弄清楚如何使用 v2 模型。v2 中的图像不一定比 v1 中的图像更好。
SDXL 发布了一系列型号:SDXL beta、SDXL 0.9 和最新的 SDXL 1.0。
如果您是 Stable Diffusion 的新手,我建议您使用v1.5和 SDXL 1.0 模型。
如何训练新模型?
使用稳定扩散的一个优点是您可以完全控制模型。如果您愿意,您可以创建具有独特风格的自己的模型。训练模型的主要方法有两种:(1)Dreambooth和(2)嵌入。
Dreambooth被认为更强大,因为它可以微调整个模型的权重。嵌入不会对模型产生任何影响,但会找到关键词来描述新的主题或风格。
您可以在dreambooth文章中使用 Colab 笔记本进行实验。
负面提示
您将想要看到的内容放在提示中。您将不想看到的内容放在否定提示中。并非所有稳定扩散服务都支持否定提示。但它对 v1 模型很有价值,对 v2 模型来说是必不可少的。对于初学者来说,使用通用的否定提示不会有什么坏处。阅读有关否定提示的更多信息:
如何利用稳定扩散制作大幅面印刷品?
对于 v1 型号,Stable Diffusion 的原始分辨率为 512×512 像素。您不应生成宽度和高度与 512 像素偏差太大的图像。使用以下尺寸设置来生成初始图像。
- 横向图像:将高度设置为 512 像素。将宽度设置为更高的值,例如 768 像素(2:3 宽高比)
- 肖像图像:将宽度设置为 512 像素。将高度设置为更高,例如 768 像素(3:2 宽高比)
如果将初始宽度和高度设置得太高,您将看到重复的主题。
下一步是升级图像。免费的 AUTOMATIC1111 GUI 附带一些流行的 AI 升级器。
如何控制图像构图?
稳定扩散技术正在快速改进。有几种方法。
图像到图像
您可以让稳定扩散在生成新图像时大致遵循输入图像。这称为图像到图像。下面是使用鹰的输入图像生成龙的示例。输出图像的构图遵循输入。
输入图像
输出图像
控制网
ControlNet类似地使用输入图像来指导输出。但它可以提取特定信息,例如人体姿势。下面是使用 ControlNet 从输入图像复制人体姿势的示例。
输入图像
输出图像
除了人体姿势之外,ControlNet 还可以提取其他信息,例如轮廓。
区域提示
您可以使用名为Regional Prompter 的扩展程序为图像的某些部分指定提示。此技术对于仅在图像的某些部分绘制对象非常有用。
下面是在左下角放置一只狼、在右下角放置头骨的示例。
阅读区域提词器教程来了解更多使用方法。
深度到图像
深度到图像是另一种通过输入图像控制构图的方法。它可以检测输入图像的前景和背景。输出图像将遵循相同的前景和背景。下面是一个例子。
输入图像
输出图像
生成特定主题
现实的人
您可以使用稳定扩散来生成照片风格的逼真人物。让我们看一些示例。
归根结底,就是使用正确的提示和经过训练的特殊模型来制作照片风格的逼真人物。在生成逼真人物的教程中了解更多信息。
动物
动物是稳定扩散用户中流行的主题。
这里有一些样本。
阅读生成动物的教程来学习如何生成动物。
什么是不稳定扩散?
Unstable Diffusion是一家为 AI 色情片开发 Stable Diffusion模型的公司。他们的 Kickstarter 筹款活动被关闭后,他们登上了头条新闻。到目前为止,他们还没有公开发布任何模型。
该公司与发布 Stable Diffusion AI 的公司 Stability AI 没有关联。