斯坦福可能“终结”Prompt Engineering？——几个字让 AI 写作重获创造力

斯坦福新法释放AI创造力

原创于 2025-11-27 22:33:24 发布 · 725 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #prompt #python #算法 #大模型 #提示词工程

导读：你还在为了让 AI 输出正确的格式，而在 Prompt 里反复修改“请你像个专家一样”、“深呼吸”、“一步步思考”吗？斯坦福大学推出的 VS框架告诉我们：这种“炼金术”式的开发方式该结束了。本文将带你了解概率模型的更多可能。

在这里插入图片描述

引言：为什么“同样”的 AI 输出令人沮丧

我们都经历过这种情况——问 ChatGPT 一个幽默段子／创意故事／脑洞想法，结果得到的答案一次次惊人地相似。即便我们换了措辞、调高 temperature、加一些“扮演某角色”的 system prompt，也依旧是那句老梗。

有人尝试调整温度 (temperature) 或 top-p，
有人尝试复杂提示 (prompt chaining)、链式思考 (chain-of-thought)、角色扮演 (role prompt)，
但结果仍旧平淡、雷同。

那时，我们甚至怀疑：是不是达到了 “LLM 创造力”的天花板？

然而，最近一篇由斯坦福等团队发表的论文 —— 及其引发的广泛讨论，表明这个结论或许太早了。究其原因，不是模型本身“变钝”，而是我们“一直在问错问题”。

一、问题的症结：提示词工程的“脆弱性”

在过去的一两年里，为了获得更好的 AI 回答，我们发明了无数技巧：

角色扮演：“你是一个拥有20年经验的 Python 专家……”
情绪勒索：“如果你做错了，会有很严重的后果……”
思维链（CoT）：“让我们一步一步地思考……”（这通常就是标题党提到的那“几个神奇单词”的来源）。

但当前发现带来的冲击在于：

创造力缺失，往往不是因为模型本身，而是因为我们在 prompt 中“只要求一个答案”。

“好 prompt”的关键，不是语言的华丽、结构的复杂，而是赋予模型“发散思考 / 自由采样空间”。

也就是说，Prompt Engineering 的复杂技巧 ≠ 必然带来创造力 / 高质量多样输出。

斯坦福等团队发表的论文 —— 及其引发的广泛讨论，表明这个结论或许太早了。究其原因，不是模型本身“变钝”，而是我们“一直在问错问题”。

二、 Verbalized Sampling

这项工作提出了一个极其简单却强大的技巧 ——Verbalized Sampling（可译为“口语化采样 / 显性采样”），就是这几个英文单词，显著改变了生成效果 —— 模型不再只输出单一 “最可能”的答案，而是“说出它想到的多个可能性 + 各自概率”。：

步骤	做法
1. 改写你的 prompt	在原 prompt 之前，加上：`“Let’s think step by step and write down our thoughts.”`
2. 请求多个答案 + 各自概率	比如：“Generate 5 responses … each with their probability.” 这样模型会返回多个候选答案 + 概率 / 相对权重。 (artificialintelligencenews.in)
3. 随机采样而非只拿最高可能性答案	从模型给出的分布中采样，而不是只选 top-1；这样容易得到 “不太常见但有创意 /惊喜感”的结果。
4. 多次运行 / 批次生成	对于创意写作、脑洞、故事、诗歌、设计想法等任务，可以多生成几批，然后人工挑选 / 整合最好 / 最有价值的输出。
5. 注意安全 / 合规 / 对齐 (alignment)	虽然这种方法恢复了创造性，但也可能带来“越界”的答案 (不合规、不安全、离题) —— 所以在高敏感任务 (法律、医学、政策…) 中仍需人工筛查 / 审慎使用。

四、为什么这个方法有效？

传统意义上的 “Prompt Engineering” 往往被视为一种 “艺术 / 技巧”：需要仔细斟酌每一个词、每一种结构 —— chain-of-thought, few-shot, role-prompt, long context, system messages，甚至调参 (temperature / top-p) —— 似乎只有“高手”才能驾驭。

当我们请求单个答案时，模型倾向于选择概率最高 (most typical) 的输出 —— 安全、常见，却往往缺乏创造力或惊喜。

通过要求模型 “展示它考虑过什么 + 各自的概率 (distribution)”，我们实际上让它暴露内部概率分布 (token / sequence distribution)，从而采样出那些 “不太可能但多样性更强” 的答案。这样，潜藏在模型权重里的创造力得以释放。

实验结果表明，这种做法可使创意输出的 “多样性 / 新颖性” 提升约 1.6–2.1 倍；并在多个任务中恢复了对齐 (alignment) 训练前模型所具有的多样性 (大约恢复到原来的 60–70%)。

因此，这种技巧没有任何模型重训 (retraining)、微调 (fine-tuning)、插件 (plugin) —— 只是一句简单引导，便能显著改善生成效果。

六、提示词案例

对用户查询生成5个响应，每个响应都在一个单独的标签中。每个都必须包含一个和一个数字。从完全分布中随机抽样响应。

写一个100字的故事，讲述一个宇航员发现了一些意想不到的事情。

适用场景与限制

✅ 推荐适用场景

创意写作：故事、诗歌、广告语、脑洞点子、脚本、段子等

头脑风暴 / 概念生成：新产品构思、营销创意、科研 idea、方案构思等

多样性探索：当你不知道应该选哪种方案 / 风格 /方向，想让 AI 给出多个可能性供参考

拉开输出分布：避免 “每次只能得到一个安全答案 / 常见答案”，想看看模型 “还知道些什么”

⚠️ 注意限制 / 边界

对齐与安全：更开放 / 发散的输出可能带来误导、不准确、偏差甚至有害内容 —— 特别是敏感领域 (法律、健康、政治…)。

质量波动：高创造性 ≠ 高质量 —— 多样答案中可能混杂低质量 / 无关 /离题内容，需要人工过滤。

不适合精确 / 事实性任务：例如数学题、严谨说明、结构化报告、合规文本等 — 在这种情况下，top-1 “最可能 / 最可信” 答案往往更合适。

对模型 /任务依赖：不是所有 LLM 都对这种提示方式高度敏感 / 适用，不同模型 /任务 /提示长度 /温度设置都会影响效果。

不仅仅是为了更好地“提示 (prompt) 模型”，而是给模型空间与自由：让它“思考 + 采样 + 表达可能性”。

创意模板

模板 1：多样创意生成（标准版）

让我们逐步思考并写下我们的想法。  
请先生成你的内部候选思路列表（不少于 5 条），并为每个思路标注相对概率（如 0.05～0.40）。

然后基于这些候选思路生成 5 条不同风格的最终回答。  
格式如下：
1）思路列表（含概率）  
2）最终回答 A（基于思路 X）  
3）最终回答 B  
4）最终回答 C  
5）最终回答 D  
6）最终回答 E

任务：基于 XXX（请填任务）提出多样答案。

模板 2：故事创意扩散

让我们逐步思考并写下我们的想法。  
请先生成此故事可能的 8 种创意方向（如风格、冲突、设定、情绪），并为每种方向分配概率。

然后基于这些方向分别写出 5 个完全不同的故事版本，每个约 150 字。

任务：请围绕“XXXX”生成故事创意。

模板 3：广告文案裂变

请逐步表达你的思考过程，并展示你内部可能选择的表达方向（不少于 6 条），并为每条方向标注概率。

然后分别生成 6 条广告文案：
- 夸张风格
- 高级感
- 口语化
- 极简风
- 反套路
- 情绪共鸣型

主题：XXXX

模板 4：写作风格迁移

让我们逐步思考并写下我们的想法。  
请给出 5 种写作风格（含概率），并解释风格特征。

然后基于这些风格生成 5 个版本（每版 120 字）：

任务：将以下内容转成更有创造力的写作风格：  
“XXXX”

模板 5：方案生成（含概率评分）

请逐步思考并写下你的想法。  
请列出至少 10 种可行方案，并对每种方案给出：
- 创新度（0-1）
- 可实施性（0-1）
- 价值潜力（0-1）
- 概率（模型倾向度）

然后输出得分最高的 3 个完整方案，每个 200 字。

任务：为“XXXX问题”生成解决方案。

模板 6：头脑风暴扩展版

让我们逐步思考并写下我们的想法。  
请给出模型内部可能的 10 种发散方向，并为每个方向标注概率。

然后基于这些方向生成 10 个头脑风暴点子（每个 3 句话）。

主题：XXXX

模板 7：多观点分析（政策/技术/学术）

请逐步思考并写下你的想法。  
请给出该问题下模型可能采取的 6 个观点方向，并给每个方向标注概率。

然后按照“利—弊—条件”生成 6 个论点（每个 150 字）。

分析主题：XXXX

模板 8：学术段落多版本生成

让我们逐步思考，并写下所有潜在表达方式。  
请展示 6 种写法的内部候选（含概率），并解释每种写法的特点。

然后生成：
- 学术风版本（SCI风）
- 工程风版本
- 精简版（50 字）
- 背景增强版
- 逻辑递进版
- 高级母语写作版

基于原文：  
“XXXX”

模板 9：高质量总结（多版本）

请逐步思考并写下你的想法。
请生成 5 种总结方向（含概率），再基于每种方向写不同摘要：
1）关键点摘要  
2）结构化摘要  
3）逻辑链摘要  
4）应用价值摘要  
5）对比型摘要  

原文内容：XXXX

模板 10：多样风格改写（提升可读性）

让我们逐步思考并写下我们的想法。  
请列出你内部可能采用的 7 种改写策略（含概率）。

然后输出 7 个版本：
- 加强逻辑
- 降低重复
- 口语化
- 更具洞察力
- 学术强化
- 语气更坚定
- 结构更清晰

原文：XXXX

总结

一句话也许改变你和 AI 的对话方式。

从今天起，也许你不需要钻研复杂 prompt 技巧、也不需要过多关注温度 / top-p / role prompt / chain-of-thought……
给出任务 + 给它一点“思考 /采样的许可”，然后从多种可能性中挑选 / 整合你喜欢 / 有价值 / 有创意 / 有意义的结果。