扰动注意力引导是对采样过程的一个简单修改,以增强您的稳定扩散图像。
我将介绍:
- 什么是扰动注意力引导。
- 如何在 ComfyUI 和 AUTOMATIC1111 中使用它。
- 设置比较。
目录
软件
自动1111
我们将使用 AUTOMATIC1111,这是一款流行且免费的稳定扩散软件。查看 Windows、 Mac或 Google Colab上的安装指南。
如果您是 AUTOMATIC1111 新手,请查看 AUTOMATIC1111 指南。
舒适的用户界面
本节中我们将使用 ComfyUI。它是 AUTOMATIC1111 的替代品。
如果您是 ComfyUI 新手,请阅读 ComfyUI 安装指南 和 ComfyUI 初学者指南。
参加稳定扩散课程,逐步学习 ComfyUI 和 AUTOMATIC1111。
什么是扰动注意力引导?
扰动注意力引导 (PAG) 是采样过程中的一种变化,旨在提高图像质量。您可以在 SD 1.5 和 SDXL 模型中使用此技术。
您可以阅读Donghoon Ahn 及其同事的研究文章《Self-Rectifying Diffusion Sampling with Perturbed-Attention Guidance》 。
U-Nets 中的注意力机制
Stable Diffusion SD 1.5 和 SDXL 模型使用一种名为U-Net 的深度神经网络在采样过程中对图像进行去噪。U-Net 中有很多注意力操作。注意力有两种类型:
- 提示和潜在图像之间的交叉注意力。
- 潜在图像中的自我注意力。
以上适用于分别由正提示和负提示控制的正潜像和负潜像。负提示是可选的,但使用它可提高图像质量。
负潜像也被称为非条件潜像,因为最初没有负提示!扩散过程避开了随机、非条件图像。
负面提示是后来的发明,它通过注入提示来破解非条件潜像,使其避开负面提示中的概念。
干扰注意力引导 (PAG)
PAG 仅修改非条件潜像的扩散,与负面提示所指定的潜像相对应。
它也仅修改了一小步:U-Net 中间块的自注意力操作。
作者认为,由于缺乏指导(不使用负面提示时),非条件潜象形成较慢。
PAG 不会通过自我注意力来确定未调节的潜在图像中哪部分是重要的,而是简单地说整个图像同样重要。
实际上,正如 ComfyUI 和 A1111 中实现的那样,PAG 不会取代无分类器指导(CFG)。相反,两者同时使用。PAG 扩散方向添加到 CFG 扩散方向,并由类似于 CFG 尺度的独立尺度因子控制。
扩散步骤是CFG和PAG的组合。
从数学上来说,采样期间的总指导是:
总指导 = CFG 规模 + PAG 规模
这就是为什么默认设置是 CFG 比例为 4 且 PAG 比例为 3,总计为 7,即广泛使用的 CFG 值。
在 ComfyUI 上使用 PAG
ComfyUI 原生支持扰动注意力引导节点。要使用它,您必须更新 ComfyUI,您可以使用 ComfyUI Manager 轻松完成此操作。
点击管理器>更新 ComfyUI。重新启动 ComfyUI。
在模型和KSampler节点之间添加PerturbedAtttentionGuidance节点。
或者下载下面的 PAG txt2img 工作流程。
以下工作流程使用相同的种子和图像大小比较具有和不具有 PAG 的图像。
在 AUTOMATIC1111 上使用 PAG
您可以将 Perturbed Attention Guidance 与 AUTOMATIC11111 结合使用。您需要安装Incantation扩展。
安装 Incantation 扩展
要在 AUTOMATIC1111 Stable Diffusion WebUI 中安装扩展:
- 正常启动 AUTOMATIC1111 Web-UI。
2. 导航到 扩展 页面。
3. 单击 从 URL 安装选项 卡。
4.在扩展的 git 存储库 URL 字段中输入 URL 。
<span style="color:#ffffff"><span style="background-color:#2a303c"><code>https://github.com/v0xie/sd-webui-incantations</code></span></span>
5.单击 安装 按钮。
6.等待安装完成的确认信息。
7.重新启动AUTOMATIC1111。
使用 PAG
要使用“扰乱注意力指导”,请展开txt2img页面上的“咒语”部分。
勾选“活动”框。
将PAG 比例设置为 3。
此设置适用于 SD 1.5 和 SDXL 型号。
输入提示并点击“生成”来创建图像。
PAG 设置
我将使用以下提示和Juggernaunt XL v7模型。
逼真的动漫半身黑暗而粗犷的电影灯光充满活力和最终幻想,哥特,黑暗天使,动态姿势,日本,不对称哥特时尚,巫师的堡垒,银色的头发,灯光昏暗,空荡荡的大厅
PAG 量表
我将使用默认的 CFG 设置 4。
帕金森病 0
帕金森病 1
帕金森病 2
帕金森病 3
帕金森病4
帕金森病 5
将 PAG 比例设置为 0 可将其关闭。因此 PAG 0 是没有PAG 的参考图像。
最佳点位于 PAG 等级 1 到 3 之间。这取决于您希望图像达到的饱和度。
将其设置为高于 3 会使图像过度饱和,其效果类似于设置高 CFG 比例。
总的来说,我认为这是一个改进(对于这个 CFG 设置)。
修复总指导
上述比较并不完全公平,因为每幅图像都有不同的总指导(CFG 比例 + PAG 比例)。仅通过更改 CFG 比例,您就可以获得类似的更高对比度结果!
因此,让我们将总指导价固定为 7,看看 PAG 是否真的做得更好。
CFG 7 PAG 0
CFG 6 PAG 1
CFG 5 PAG 2
CFG 4 PAG 3
CFG 3 PAG 4
CFG 2 PAG 5
CFG 1 PAG 6
CFG 0 PAG 7
较低的 PAG 值(1-3)确实可以提高图像质量。我们还看到 PAG 比 CFG 提供了更强的指导,因为图像在 PAG 等级为 7 时就被破坏了。
负面提示
研究文章缺少的一个部分是负面提示。
我们可以不使用 PAG,而是用受负提示条件影响的潜像替代未条件潜像来获得更高的图像质量。
当使用负面提示时,PAG 的表现如何?让我们来一探究竟。
让我们添加这个负面提示:
毁容,丑陋,变形,质量低下,初学者
左列是 PAG 0 和 CFG 7,右列是 PAG 3 和 CFG 4。
种子 1 无 PAG
种子 1 PAG
种子 2 无 PAG
种子 2 PAG
种子 3 无 PAG
种子 3 PAG
如果有负面提示,使用 PAG 似乎仍然更好。