引言
Stable Diffusion 是当前最先进的文本到图像生成模型之一,它的强大能力源于多个协同工作的神经网络组件。构成Stable Diffusion的三个主要组成部分(每个组成部分都有自己的神经网络):
-
ClipText 用于文本编码。
输入:文本。
输出:77 个 token 嵌入向量,每个向量有 768 个维度。 -
UNet + Scheduler 用于逐步处理/传播信息(潜在)空间中的信息。
输入:文本嵌入和由噪声组成的起始多维数组(结构化数字列表,也称为张量)。
输出:处理后的信息数组 -
Autoencoder Decoder 自动编码器解码器 使用处理后的信息数组绘制最终图像。
输入:处理后的信息数组(维度:(4,64,64))
输出:生成的图像(维度:(3, 512, 512),即(红/绿/蓝,宽度,高度))

示意架构图
Stable Diffusion文生图
系统接收文本输入,将其编码为高维语义向量,并通过潜在扩散模型(Latent Diffusion Model)完成图像生成。在这一过程中,提示词(Prompt)扮演着至关重要的角色,它不仅影响图像的内容、风格和质量,还决定了生成结果的精确度和艺术表现力。要想精准控制 Stable Diffusion 的输出,理解提示词的核心原理是关键。本文将从语言模型、语义权重、特征融合等方面,深入解析提示词的作用机制,并探讨专业级提示词创作技巧,以帮助用户高效利用这一 AI 生成工具。
一、Stable Diffusion提示词的核心原理
1.1 语言模型与潜在空间的交互机制
Stable Diffusion作为当前最先进的文本到图像生成模型,其核心技术建立在潜在扩散模型(Latent Diffusion Model)之上。提示词通过CLIP文本编码器转换为768维的语义向量,这一过程涉及对自然语言的深度理解与特征提取。模型通过交叉注意力机制(Cross-Attention)将这些语义特征与潜在空间的图像特征进行动态对齐,最终在U-Net架构中完成噪声预测和图像去噪过程。
1.2 语义权重分配原理
模型采用基于Transformer的注意力机制对提示词进行动态权重分配。每个token的注意力权重决定了其对最终生成图像的贡献度,这种权重分配遵循以下规则:
-
位置效应:提示词的前20个token具有更高的基础权重
-
重复强化:重复关键词可提升对应特征的生成强度
-
语法修饰:使用括号、逗号等符号可改变注意力分布
1.3 多模态特征融合机制
提示词系统通过语义解耦技术将文本描述转化为可分离的视觉要素。例如"a red apple on a wooden table"会被分解为颜色、物体、材质、空间关系等多个独立特征向量,这些向量在潜在空间中通过线性组合生成最终图像特征。
二、提示词的核心作用解析
2.1 内容控制维度
-
主体描述 :精确描述人物/物体的属性(年龄、服饰、动作)
-
场景构建 :定义环境要素(季节、天气、建筑风格)
-
风格控制 :指定艺术流派(赛博朋克、水墨画、蒸汽波)
-
细节强化 :添加材质、光影、纹理等微观特征
2.2 质量提升维度
-
分辨率优化 :通过"8k resolution"、"ultra detailed"等关键词提升画质
-
构图控制 :使用"rule of thirds"、"symmetrical composition"改善画面结构
-
缺陷规避 :添加"deformed hands"、"blurry"等负面提示减少生成错误
2.3 风格化创作维度
-
跨风格融合 :组合不同艺术元素("digital painting mixed with ink wash")
-
时代特征复现 :重现特定时期艺术风格("1930s art deco poster")
-
材质转换 :改变画面介质表现("carved from jade"、"stained glass")
三、专业级提示词创作技巧
3.1 结构化写作框架
采用"主体-环境-风格-细节"的四层结构:
主体
:人、物
细节词:
(
人
)
五官、头发、
姿势
、
服饰
、
表情
、
装饰
、
角色
、
视线、…
;(物
)
材质、颜色、…
环境(
视角
、
四季
、
朝暮、
日月星辰
、
风景地点
、
室内场景
、
氛围、
光照、…
)
风格(
艺术风格、艺术类型、艺术派系、艺术家风格、…
)
示例:
生成一张详细的女孩肖像

Stable Diffusion WebUI出图效果:
3.2 权重控制技巧
-
符号强化 : (keyword:1.5) 提升权重, [keyword] 降低权重
-
位置策略 :核心要素置于提示词前段
-
重复法则 :关键特征重复2-3次(如"intricate details, highly detailed")
3.3 风格化组合公式

示例:

3.4 高级控制策略
-
语义分层 :使用 :: 分隔不同语义层级
-
动态范围扩展 :添加 HDR10 、 wide color gamut 提升色彩表现
-
物理引擎模拟 :引入 ray tracing 、 subsurface scattering 等渲染术语
四、常见误区与优化建议
4.1 典型错误类型
-
语义冲突 :同时要求"minimalist design"和"highly ornate"
-
过度堆砌 :超过75个token导致注意力稀释
-
文化误用 :错误搭配不同地域文化元素
-
物理矛盾 :违反透视规律的空间描述
4.2 优化验证流程
-
关键词精简 :使用 automatic1111 的提示词分析工具
-
分步调试 :逐步添加要素观察变化
-
对比实验 :固定随机种子进行A/B测试
4.3 跨模型适配策略
模型类型 | 提示词特点 | 适配技巧 |
写实系 | 需要精确物理描述 | 添加相机参数、光照参数 |
动漫系 | 侧重风格标签 | 使用"official art"、"cel-shaded" |
艺术系 | 依赖流派术语 | 组合艺术家名字与技法词汇 |
五、总结 - 书写格式

掌握Stable Diffusion提示词创作本质上是培养一种新型的"视觉编程"能力。随着ControlNet、LoRA等扩展技术的出现,提示词工程已发展为包含空间控制、风格迁移、物理模拟等多个维度的系统工程。建议创作者建立自己的关键词库,持续跟踪社区最新研究成果,同时注重艺术审美与技术理解的同步提升。未来的AI艺术创作,必将属于那些既能精准驾驭技术工具,又具有深厚美学修养的跨领域人才。