🤔 “为什么我写了一大串prompt,AI出的图还是又怪又离谱?”
其实,可控性并不等于堆砌关键词。
面试AIGC岗位时,这个问题是面试官的“经典考点”之一。
想答好,就得从模型、提示词、参数、负向控制、硬件五个方面拆解👇
🧠 一、基础模型的训练方向决定了“风格基因”
不同模型在训练时就带有“风格偏好”,这决定了它在生图时的可控范围。
| 模型 | 训练特点 | 可控性强项 |
|---|---|---|
| Stable Diffusion(SD) | 开源生态成熟,支持LoRA/ControlNet | 精细化控制、二次元/写实风格 |
| Midjourney | 封闭模型、社群风格导向 | 光影氛围感、艺术构图 |
| DALL·E 3 | 强调文本理解能力 | Prompt语义还原最强 |
👉 在实际项目中,应根据任务选择合适模型:
-
广告视觉设计 → Midjourney
-
游戏人物设定 → SD + ControlNet
-
海报文案快速出图 → DALL·E 3
🔍 二、提示词工程(Prompt Engineering)的精准度
高可控生图的核心是:关键词层次 + 权重控制 + 专业描述
✅ 关键词金字塔结构:
主体 → 风格 → 细节
例:「赛博朋克少女(主体)+ 吉卜力动画风格(风格)+ 发光机械耳坠 / 紫蓝渐变挑染(细节)」
⚖️ 权重控制:
-
(keyword):增强关键词权重 -
[keyword]:弱化关键词影响 -
避免关键词冲突,如「夜晚」与「阳光照射」
🧩 专业术语增强:
加入如 4K resolution, Unreal Engine, cinematic lighting 等词,提升模型识别度与画面质感。
⚙️ 三、生成参数的协同调节
生成参数是AI生图“稳定性”和“风格可控性”的关键。
| 参数 | 建议值 | 说明 |
|---|---|---|
| Sampling Steps | 写实风格 30–40,抽象风格 20–25 | 步数越高,细节越清晰但耗时增加 |
| CFG Scale | 7–9 为黄金区间 | >12 可能导致色彩过饱和、构图僵硬 |
| Seed(随机种子) | 固定后可复现构图 | 适合系列图、风格统一设计 |
🚫 四、负向提示词(Negative Prompt)的必要性
负向提示词可以有效减少“废图”与异常细节。
常用示例:
lowres, blurry, bad anatomy, worst quality, low quality, extra fingers
💡 建议建立自定义负向词模板库,在每次生图时直接引用,显著提升成图率。
🔧 五、硬件性能的影响
在本地部署Stable Diffusion等模型时,硬件配置同样决定生成稳定性:
-
显卡显存:推荐 ≥ 12GB(如RTX 4070Ti以上)
-
存储与CPU:影响加载与推理速度
-
内存:建议 ≥ 32GB,以防止高分辨率生成时崩溃
🎯 总结:AI生图可控性的“五要素金字塔”
| 层级 | 关键点 | 对可控性影响 |
|---|---|---|
| 模型层 | 选择合适基础模型 | 决定能力边界 |
| 提示层 | Prompt结构 + 权重 | 决定理解精准度 |
| 参数层 | 采样步数、CFG、Seed | 决定稳定性 |
| 负向层 | 负向关键词模板 | 减少废图率 |
| 系统层 | 硬件与算力 | 影响整体表现 |


被折叠的 条评论
为什么被折叠?



