为什么需要正负向Prompt？—— 与AI画师的精准沟通

最新推荐文章于 2025-12-18 12:18:33 发布

原创最新推荐文章于 2025-12-18 12:18:33 发布 · 550 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#prompt #AI作画 #人工智能

部署运行你感兴趣的模型镜像

您可以将文生图AI想象成一位天赋极高但缺乏常识和细节理解力的“实习生画师”。您的Prompt，就是给他的“工作指令单”。

正向Prompt：是“我要什么”。它告诉画师你希望画面中出现哪些主体、细节、风格和氛围。指令越清晰、具体，画师的作品就越贴近你的想象。
负向Prompt：是“我不要什么”。它用于约束和修正，主动排除那些你不希望出现的、但AI模型基于其训练数据很可能自行添加的元素。这是一种“防错机制”。

1. 正向Prompt：构建画面的基石

正向Prompt的核心作用是引导生成方向，填充画面细节。

功能：激活模型训练中学到的正向概念和关联。当你输入“one boy, black hair, running, playground, 3D”，模型会调动所有与这些词汇相关的视觉特征，将它们组合起来。
重要性：没有正向Prompt，或者正向Prompt过于模糊，生成结果就会完全依赖模型的随机初始化，导致内容不明确、风格混乱。一个好的正向Prompt是高质量作品的保证。

撰写技巧：

从主体到环境：[主体] + [动作/状态] + [环境/背景] + [风格] + [画质/细节]
- 例如：A majestic white dragon, soaring through cloudy skies, ancient castle in the background, epic fantasy art style, highly detailed, cinematic lighting
使用权重强调：通过 (keyword:1.2) 或 [keyword] 来加强或减弱某些元素的重要性。
具体化：用“photorealistic”代替“real photo”，用“cinematic lighting, dramatic shadows”代替“cool picture”。

2. 负向Prompt：提升画质的隐形守护者

负向Prompt之所以至关重要，是基于文生图模型的一个固有特性：它是在一个包含各种质量层次图片的庞大数据集上训练的。因此，它“见过”的糟糕图片和优秀图片一样多。负向Prompt的作用就是主动抑制模型向“低质量”或“不相关”的方向生成。

负向Prompt的主要应用场景：

提升美学质量（排除低质元素）：
- 为什么需要：模型自己可能会生成模糊、扭曲、不协调的画面。
- 示例：ugly, blurry, low resolution, poorly drawn, bad anatomy, extra limbs, disfigured, deformed, watermark, signature, text, username
- 作用：直接告诉模型避开这些常见的低质量视觉特征，迫使它向更高质量、更合理的图像空间进行探索。
避免不想要的内容（实现精确控制）：
- 为什么需要：比如您只想要“one boy”，但模型基于“playground”的上下文，很可能自作主张地加上其他小孩。
- 示例：unreal, multi person（如您所举的例子），或者 cars, buildings（当你想生成纯自然风景时）。
- 作用：明确拒绝特定元素，确保画面构图的纯净和意图的准确。
修正风格偏向（对抗模型固有倾向）：
- 为什么需要：某些模型（尤其是基于动漫数据训练的）可能有强烈的风格偏向。当你想要“照片真实”时，它可能还是会输出带有一点绘画感的图片。
- 示例：当追求真实感时，可以加入：anime, cartoon, 3d render, painting, drawing。
- 作用：将生成结果从模型擅长的但你不想要的风格领域中“推开”。
解决人物面部和手部难题：
- 为什么需要：由于训练数据的复杂性和这些结构的复杂性，人物面部和手部是AI最容易出错的地方。
- 示例：bad hands, mutated hands, poorly drawn hands, malformed feet, ugly face, disfigured face
- 作用：虽然不能100%解决问题，但能显著降低出现严重畸形的概率。

总结一下：正向Prompt是拉力，把AI拉向你想要的创作方向；负向Prompt是推力，把AI从你不希望的创作区域推开。两者相辅相成，是实现精准控制的黄金组合。

第二部分：推理超参数：微调创作过程的“旋钮”

如果说Prompt是给AI画师的“指令单”，那么推理超参数就是你为他调整的画室环境和工作方式。这些参数决定了AI如何“思考”并一步步从噪声中绘制出最终的图像。

以下是您在选择“推理超参数”时，常见的几个关键参数及其作用：

1. 采样器

是什么：AI从随机噪声开始，逐步去噪并形成图像所依赖的数学算法。不同的采样器有不同的特性和侧重点。
如何选：
- DPM/DDIM系列：如 DPM++ 2M Karras，速度快，质量高，是目前的热门选择。
- Euler：最简单，速度最快，但可能缺乏一些细节。
- LMS：老牌稳定，但速度较慢。
- 建议：初学者可以从 DPM++ 2M Karras 或 Euler a 开始尝试。

2. 采样步数

是什么：AI去噪的迭代次数。可以理解为画师修改画面的次数。
如何调：
- 步数过低（<20）：图像可能未完成，细节粗糙，甚至无法识别。
- 步数适中（20-40）：大多数采样器的“甜点区”，能在细节和质量间取得良好平衡。
- 步数过高（>50）：细节可能会过饱和，图像变得“塑料感”或不自然，且生成时间大大延长。收益递减效应非常明显。
- 建议：通常设置在 25-35 之间，根据采样器进行调整。

3. 图像尺寸

是什么：生成图片的宽高分辨率。
如何调：
- 遵循模型训练尺寸：大多数模型在特定尺寸（如512x512, 768x768）上训练效果最好。偏离这个尺寸可能导致人物畸形或逻辑错误。
- 构图影响：竖图（如512x768）适合生成单人半身像，横图（如768x512）适合生成风景或多人场景。
- 建议：首先生成模型推荐的基准尺寸，得到满意结果后，再使用“高清修复”功能来放大分辨率。

4. 引导系数

是什么：表示AI在生成时遵循你提供的Prompt的严格程度。也称为 CFG Scale。
如何调：
- 过低（<5）：AI过于“自由发挥”，可能忽略你的Prompt，艺术性强但不可控。
- 适中（7-10）：推荐范围，能在遵循指令和保持创造性之间取得良好平衡。
- 过高（>15）：AI会变得“机械”，过度解读Prompt，导致颜色过饱和、构图僵硬、画面压抑。可能会出现“CFG烧伤”的伪影。
- 建议：从 7 开始尝试，根据生成结果微调。

5. 随机种子

是什么：决定生成过程初始状态的数字。相同的Prompt和种子，会生成几乎相同的图片。
如何用：
- 固定种子：当你得到一张非常喜欢的图片，并希望微调Prompt（如换发型、加眼镜）而保持其他一切不变时，固定种子非常有用。
- 随机种子：探索同一Prompt下不同的构图和可能性时使用。

6. 高清修复

是什么：一种后处理技术，在生成基础图片后，将其放大并添加更多细节。
何时用：
- 当你对基础小图的构图、内容都非常满意，但需要更高分辨率时。
- 它可以显著改善面部细节、纹理和整体清晰度。

实战模板示例

结合您提到的Prompt，一个完整的文生图指令可能是：

正向Prompt:
(masterpiece, best quality, 8k, detailed:1.2), 1 boy, black hair, running happily on a sunny playground, green grass, blue sky, (3D style:1.3), cinematic lighting, dynamic angle
负向Prompt:
(worst quality, low resolution, blurry:1.2), unreal, multi person, ugly, deformed, bad hands, text, signature, watermark
推理超参数:
- 采样器: DPM++ 2M Karras
- 采样步数: 28
- 图像尺寸: 512x512 (先确保构图正确)
- 引导系数: 7.5
- 种子: -1 (代表随机)