为什么需要正负向Prompt?—— 与AI画师的精准沟通

部署运行你感兴趣的模型镜像

您可以将文生图AI想象成一位天赋极高但缺乏常识和细节理解力的“实习生画师”。您的Prompt,就是给他的“工作指令单”。

  • 正向Prompt:是“我要什么”。它告诉画师你希望画面中出现哪些主体、细节、风格和氛围。指令越清晰、具体,画师的作品就越贴近你的想象。

  • 负向Prompt:是“我不要什么”。它用于约束和修正,主动排除那些你不希望出现的、但AI模型基于其训练数据很可能自行添加的元素。这是一种“防错机制”。

1. 正向Prompt:构建画面的基石

正向Prompt的核心作用是引导生成方向,填充画面细节

  • 功能:激活模型训练中学到的正向概念和关联。当你输入“one boy, black hair, running, playground, 3D”,模型会调动所有与这些词汇相关的视觉特征,将它们组合起来。

  • 重要性:没有正向Prompt,或者正向Prompt过于模糊,生成结果就会完全依赖模型的随机初始化,导致内容不明确、风格混乱。一个好的正向Prompt是高质量作品的保证。

撰写技巧

  • 从主体到环境[主体] + [动作/状态] + [环境/背景] + [风格] + [画质/细节]

    • 例如:A majestic white dragon, soaring through cloudy skies, ancient castle in the background, epic fantasy art style, highly detailed, cinematic lighting

  • 使用权重强调:通过 (keyword:1.2) 或 [keyword] 来加强或减弱某些元素的重要性。

  • 具体化:用“photorealistic”代替“real photo”,用“cinematic lighting, dramatic shadows”代替“cool picture”。

2. 负向Prompt:提升画质的隐形守护者

负向Prompt之所以至关重要,是基于文生图模型的一个固有特性:它是在一个包含各种质量层次图片的庞大数据集上训练的。因此,它“见过”的糟糕图片和优秀图片一样多。负向Prompt的作用就是主动抑制模型向“低质量”或“不相关”的方向生成

负向Prompt的主要应用场景

  1. 提升美学质量(排除低质元素)

    • 为什么需要:模型自己可能会生成模糊、扭曲、不协调的画面。

    • 示例ugly, blurry, low resolution, poorly drawn, bad anatomy, extra limbs, disfigured, deformed, watermark, signature, text, username

    • 作用:直接告诉模型避开这些常见的低质量视觉特征,迫使它向更高质量、更合理的图像空间进行探索。

  2. 避免不想要的内容(实现精确控制)

    • 为什么需要:比如您只想要“one boy”,但模型基于“playground”的上下文,很可能自作主张地加上其他小孩。

    • 示例unreal, multi person(如您所举的例子),或者 cars, buildings(当你想生成纯自然风景时)。

    • 作用:明确拒绝特定元素,确保画面构图的纯净和意图的准确。

  3. 修正风格偏向(对抗模型固有倾向)

    • 为什么需要:某些模型(尤其是基于动漫数据训练的)可能有强烈的风格偏向。当你想要“照片真实”时,它可能还是会输出带有一点绘画感的图片。

    • 示例:当追求真实感时,可以加入:anime, cartoon, 3d render, painting, drawing

    • 作用:将生成结果从模型擅长的但你不想要的风格领域中“推开”。

  4. 解决人物面部和手部难题

    • 为什么需要:由于训练数据的复杂性和这些结构的复杂性,人物面部和手部是AI最容易出错的地方。

    • 示例bad hands, mutated hands, poorly drawn hands, malformed feet, ugly face, disfigured face

    • 作用:虽然不能100%解决问题,但能显著降低出现严重畸形的概率。

总结一下:正向Prompt是拉力,把AI拉向你想要的创作方向;负向Prompt是推力,把AI从你不希望的创作区域推开。两者相辅相成,是实现精准控制的黄金组合


第二部分:推理超参数:微调创作过程的“旋钮”

如果说Prompt是给AI画师的“指令单”,那么推理超参数就是你为他调整的画室环境和工作方式。这些参数决定了AI如何“思考”并一步步从噪声中绘制出最终的图像。

以下是您在选择“推理超参数”时,常见的几个关键参数及其作用:

1. 采样器
  • 是什么:AI从随机噪声开始,逐步去噪并形成图像所依赖的数学算法。不同的采样器有不同的特性和侧重点。

  • 如何选

    • DPM/DDIM系列:如 DPM++ 2M Karras,速度快,质量高,是目前的热门选择

    • Euler:最简单,速度最快,但可能缺乏一些细节。

    • LMS:老牌稳定,但速度较慢。

    • 建议:初学者可以从 DPM++ 2M Karras 或 Euler a 开始尝试。

2. 采样步数
  • 是什么:AI去噪的迭代次数。可以理解为画师修改画面的次数。

  • 如何调

    • 步数过低(<20):图像可能未完成,细节粗糙,甚至无法识别。

    • 步数适中(20-40):大多数采样器的“甜点区”,能在细节和质量间取得良好平衡。

    • 步数过高(>50):细节可能会过饱和,图像变得“塑料感”或不自然,且生成时间大大延长。收益递减效应非常明显。

    • 建议:通常设置在 25-35 之间,根据采样器进行调整。

3. 图像尺寸
  • 是什么:生成图片的宽高分辨率。

  • 如何调

    • 遵循模型训练尺寸:大多数模型在特定尺寸(如512x512, 768x768)上训练效果最好。偏离这个尺寸可能导致人物畸形或逻辑错误。

    • 构图影响:竖图(如512x768)适合生成单人半身像,横图(如768x512)适合生成风景或多人场景。

    • 建议:首先生成模型推荐的基准尺寸,得到满意结果后,再使用“高清修复”功能来放大分辨率。

4. 引导系数
  • 是什么:表示AI在生成时遵循你提供的Prompt的严格程度。也称为 CFG Scale

  • 如何调

    • 过低(<5):AI过于“自由发挥”,可能忽略你的Prompt,艺术性强但不可控。

    • 适中(7-10)推荐范围,能在遵循指令和保持创造性之间取得良好平衡。

    • 过高(>15):AI会变得“机械”,过度解读Prompt,导致颜色过饱和、构图僵硬、画面压抑。可能会出现“CFG烧伤”的伪影。

    • 建议:从 7 开始尝试,根据生成结果微调。

5. 随机种子
  • 是什么:决定生成过程初始状态的数字。相同的Prompt和种子,会生成几乎相同的图片。

  • 如何用

    • 固定种子:当你得到一张非常喜欢的图片,并希望微调Prompt(如换发型、加眼镜)而保持其他一切不变时,固定种子非常有用。

    • 随机种子:探索同一Prompt下不同的构图和可能性时使用。

6. 高清修复
  • 是什么:一种后处理技术,在生成基础图片后,将其放大并添加更多细节。

  • 何时用

    • 当你对基础小图的构图、内容都非常满意,但需要更高分辨率时。

    • 它可以显著改善面部细节、纹理和整体清晰度。

实战模板示例

结合您提到的Prompt,一个完整的文生图指令可能是:

  • 正向Prompt:
    (masterpiece, best quality, 8k, detailed:1.2), 1 boy, black hair, running happily on a sunny playground, green grass, blue sky, (3D style:1.3), cinematic lighting, dynamic angle

  • 负向Prompt:
    (worst quality, low resolution, blurry:1.2), unreal, multi person, ugly, deformed, bad hands, text, signature, watermark

  • 推理超参数:

    • 采样器DPM++ 2M Karras

    • 采样步数28

    • 图像尺寸512x512 (先确保构图正确)

    • 引导系数7.5

    • 种子-1 (代表随机)

通过这样的组合,您就能系统地引导AI,大大增加生成出令人惊艳且符合预期的图像的概率。希望这份详细的解释能帮助您更好地驾驭文生图技术!

您可能感兴趣的与本文相关的镜像

ComfyUI

ComfyUI

AI应用
ComfyUI

ComfyUI是一款易于上手的工作流设计工具,具有以下特点:基于工作流节点设计,可视化工作流搭建,快速切换工作流,对显存占用小,速度快,支持多种插件,如ADetailer、Controlnet和AnimateDIFF等

<think>嗯,用户让我了解Prompt的定义,结合引用内容来回答。首先,我需要整理各个引用中提到的定义部分。 引用[1]提到Prompt是通过自然语言向AI传达指令的方式,可以是一个问题、描述或任务要求,相当于任务说明书。引用[2]强调定义是说明概念或术语的含义,帮助聊天机器人表达知识和用户理解内容。引用[3]和[4]都指出Prompt是引导模型生成输出的关键输入,引用[3]还提到其在业务场景中的作用,如客服优化。引用[5]补充了提示工程的重要性,指出有效提示能提升响应质量,但设计过程复杂。 接下来要整合这些观点。核心定义是:Prompt是用户用自然语言给AI的指令或输入,用于引导模型产生特定输出。作用包括明确任务、控制生成方向、优化结果。引用中多次提到"任务说明书"、"引导模型"、"关键输入"等关键词,需要突出这些点。同时,引用[3]和[4]提到的工程技术部分虽然重要,但用户当前只问定义,暂时不需要深入技术细节。 还要注意用户上次的回答结构要求:中文回答、LaTeX格式准确、生成相关问题。需确保定义部分用行内公式(如术语用$符号),但定义本身没有数学表达式,可能不需要LaTeX。生成的问题需围绕Prompt定义延伸,比如设计原则、优化方法、应用实例等。 最后检查是否符合所有系统指令:行内数学表达式规范(此回答可能用不到)、独立公式单独成段(无)、引用标识正确添加(每个引用末尾标[^n])、中文回答清晰。相关问题设计要参考用户之前的问题模式,如"Prompt的核心作用是什么?"或"如何设计有效Prompt?" </think>基于提供的引用资料,以下是关于 **Prompt 定义** 的整合说明: --- ### **Prompt 的定义** **Prompt(提示)** 是用户通过自然语言向人工智能模型(尤其是大语言模型)传达的**指令、问题、描述或任务要求**,用于引导模型生成特定输出或执行既定任务[^1][^3][^4]。其核心功能是充当**人机交互的“任务说明书”**,通过精确的输入控制模型的响应方向质量。 #### 关键特征解析: 1. **自然语言载体** Prompt 以人类可读的文本形式存在(例如:“总结以下文章”“将这段代码翻译为Python”),无需编程语法[^1][^3]; 2. **任务引导性** 通过描述任务目标、约束条件或输出格式(如“用三点回答”“生成表格”),指导模型理解预期结果[^4][^5]; 3. **核心作用** - **降低理解门槛**:帮助模型更精准捕捉用户意图[^1][^2]; - **优化输出质量**:精心设计的 Prompt 可显著提升生成内容的准确性、相关性和结构合理性[^3][^5]; - **扩展应用场景**:覆盖客服对话、代码生成、数据分析、知识问答等多样化需求[^3][^4]。 > **类比说明**:Prompt 如同给翻译员的“翻译要求清单”,或在导航中输入的目的地地址——其清晰度直接决定最终结果的可用性[^1][^3]。 --- ### **相关问题** 1. Prompt 的核心作用底层原理是什么? 2. 设计高效 Prompt 需要遵循哪些原则? 3. 如何通过 Prompt Engineering 优化大模型在客服场景中的表现? 4. 传统编程指令相比,Prompt 交互模式有哪些优势局限? 5. 能否举例说明“定义型 Prompt”(如引用[2])的实际应用场景? [^1]: 什么是 Prompt?——一篇详细的介绍 [^2]: 有效 Prompt 的类型:定义型指令 [^3]: Prompt定义及基本框架,业务场景价值分析 [^4]: Prompt 工程技术演进核心价值 [^5]: Conversational Prompt Engineering:挑战优化方向
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值