导读:你还在为了让 AI 输出正确的格式,而在 Prompt 里反复修改“请你像个专家一样”、“深呼吸”、“一步步思考”吗?斯坦福大学推出的 VS框架告诉我们:这种“炼金术”式的开发方式该结束了。本文将带你了解概率模型的更多可能。

引言:为什么“同样”的 AI 输出令人沮丧
我们都经历过这种情况——问 ChatGPT 一个幽默段子/创意故事/脑洞想法,结果得到的答案一次次惊人地相似。即便我们换了措辞、调高 temperature、加一些“扮演某角色”的 system prompt,也依旧是那句老梗。
-
有人尝试调整温度 (temperature) 或 top-p,
-
有人尝试复杂提示 (prompt chaining)、链式思考 (chain-of-thought)、角色扮演 (role prompt),
-
但结果仍旧平淡、雷同。
那时,我们甚至怀疑:是不是达到了 “LLM 创造力”的天花板?
然而,最近一篇由斯坦福等团队发表的论文 —— 及其引发的广泛讨论,表明这个结论或许太早了。究其原因,不是模型本身“变钝”,而是我们“一直在问错问题”。
一、 问题的症结:提示词工程的“脆弱性”
在过去的一两年里,为了获得更好的 AI 回答,我们发明了无数技巧:
- 角色扮演:“你是一个拥有20年经验的 Python 专家……”
- 情绪勒索:“如果你做错了,会有很严重的后果……”
- 思维链(CoT):“让我们一步一步地思考……”(这通常就是标题党提到的那“几个神奇单词”的来源)。
但当前发现带来的冲击在于:
创造力缺失,往往不是因为模型本身,而是因为我们在 prompt 中“只要求一个答案”。
“好 prompt”的关键,不是语言的华丽、结构的复杂,而是赋予模型“发散思考 / 自由采样空间”。
也就是说,Prompt Engineering 的复杂技巧 ≠ 必然带来创造力 / 高质量多样输出。
斯坦福等团队发表的论文 —— 及其引发的广泛讨论,表明这个结论或许太早了。究其原因,不是模型本身“变钝”,而是我们“一直在问错问题”。
二、 Verbalized Sampling
这项工作提出了一个极其简单却强大的技巧 ——Verbalized Sampling(可译为“口语化采样 / 显性采样”),就是这 几个英文单词,显著改变了生成效果 —— 模型不再只输出单一 “最可能”的答案,而是“说出它想到的多个可能性 + 各自概率”。:
| 步骤 | 做法 |
|---|---|
| 1. 改写你的 prompt | 在原 prompt 之前,加上:“Let’s think step by step and write down our thoughts.” |
| 2. 请求多个答案 + 各自概率 | 比如:“Generate 5 responses … each with their probability.” 这样模型会返回多个候选答案 + 概率 / 相对权重。 (artificialintelligencenews.in) |
| 3. 随机采样而非只拿最高可能性答案 | 从模型给出的分布中采样,而不是只选 top-1;这样容易得到 “不太常见但有创意 /惊喜感”的结果。 |
| 4. 多次运行 / 批次生成 | 对于创意写作、脑洞、故事、诗歌、设计想法等任务,可以多生成几批,然后人工挑选 / 整合最好 / 最有价值的输出。 |
| 5. 注意安全 / 合规 / 对齐 (alignment) | 虽然这种方法恢复了创造性,但也可能带来“越界”的答案 (不合规、不安全、离题) —— 所以在高敏感任务 (法律、医学、政策…) 中仍需人工筛查 / 审慎使用。 |
四、 为什么这个方法有效?
传统意义上的 “Prompt Engineering” 往往被视为一种 “艺术 / 技巧”:需要仔细斟酌每一个词、每一种结构 —— chain-of-thought, few-shot, role-prompt, long context, system messages,甚至调参 (temperature / top-p) —— 似乎只有“高手”才能驾驭。
当我们请求单个答案时,模型倾向于选择概率最高 (most typical) 的输出 —— 安全、常见,却往往缺乏创造力或惊喜。
通过要求模型 “展示它考虑过什么 + 各自的概率 (distribution)”,我们实际上让它暴露内部概率分布 (token / sequence distribution),从而采样出那些 “不太可能但多样性更强” 的答案。这样,潜藏在模型权重里的创造力得以释放。
实验结果表明,这种做法可使创意输出的 “多样性 / 新颖性” 提升约 1.6–2.1 倍;并在多个任务中恢复了对齐 (alignment) 训练前模型所具有的多样性 (大约恢复到原来的 60–70%)。
因此,这种技巧没有任何模型重训 (retraining)、微调 (fine-tuning)、插件 (plugin) —— 只是一句简单引导,便能显著改善生成效果。
六、提示词案例
对用户查询生成5个响应,每个响应都在一个单独的标签中。每个都必须包含一个
写一个100字的故事,讲述一个宇航员发现了一些意想不到的事情。
适用场景与限制
✅ 推荐适用场景
创意写作:故事、诗歌、广告语、脑洞点子、脚本、段子等
头脑风暴 / 概念生成:新产品构思、营销创意、科研 idea、方案构思等
多样性探索:当你不知道应该选哪种方案 / 风格 /方向,想让 AI 给出多个可能性供参考
拉开输出分布:避免 “每次只能得到一个安全答案 / 常见答案”,想看看模型 “还知道些什么”
⚠️ 注意限制 / 边界
对齐与安全:更开放 / 发散的输出可能带来误导、不准确、偏差甚至有害内容 —— 特别是敏感领域 (法律、健康、政治…)。
质量波动:高创造性 ≠ 高质量 —— 多样答案中可能混杂低质量 / 无关 /离题内容,需要人工过滤。
不适合精确 / 事实性任务:例如数学题、严谨说明、结构化报告、合规文本等 — 在这种情况下,top-1 “最可能 / 最可信” 答案往往更合适。
对模型 /任务 依赖:不是所有 LLM 都对这种提示方式高度敏感 / 适用,不同模型 /任务 /提示长度 /温度设置都会影响效果。
不仅仅是为了更好地“提示 (prompt) 模型”,而是给模型 空间与自由:让它“思考 + 采样 + 表达可能性”。
创意模板
模板 1:多样创意生成(标准版)
让我们逐步思考并写下我们的想法。
请先生成你的内部候选思路列表(不少于 5 条),并为每个思路标注相对概率(如 0.05~0.40)。
然后基于这些候选思路生成 5 条不同风格的最终回答。
格式如下:
1)思路列表(含概率)
2)最终回答 A(基于思路 X)
3)最终回答 B
4)最终回答 C
5)最终回答 D
6)最终回答 E
任务:基于 XXX(请填任务)提出多样答案。
模板 2:故事创意扩散
让我们逐步思考并写下我们的想法。
请先生成此故事可能的 8 种创意方向(如风格、冲突、设定、情绪),并为每种方向分配概率。
然后基于这些方向分别写出 5 个完全不同的故事版本,每个约 150 字。
任务:请围绕“XXXX”生成故事创意。
模板 3:广告文案裂变
请逐步表达你的思考过程,并展示你内部可能选择的表达方向(不少于 6 条),并为每条方向标注概率。
然后分别生成 6 条广告文案:
- 夸张风格
- 高级感
- 口语化
- 极简风
- 反套路
- 情绪共鸣型
主题:XXXX
模板 4:写作风格迁移
让我们逐步思考并写下我们的想法。
请给出 5 种写作风格(含概率),并解释风格特征。
然后基于这些风格生成 5 个版本(每版 120 字):
任务:将以下内容转成更有创造力的写作风格:
“XXXX”
模板 5:方案生成(含概率评分)
请逐步思考并写下你的想法。
请列出至少 10 种可行方案,并对每种方案给出:
- 创新度(0-1)
- 可实施性(0-1)
- 价值潜力(0-1)
- 概率(模型倾向度)
然后输出得分最高的 3 个完整方案,每个 200 字。
任务:为“XXXX问题”生成解决方案。
模板 6:头脑风暴扩展版
让我们逐步思考并写下我们的想法。
请给出模型内部可能的 10 种发散方向,并为每个方向标注概率。
然后基于这些方向生成 10 个头脑风暴点子(每个 3 句话)。
主题:XXXX
模板 7:多观点分析(政策/技术/学术)
请逐步思考并写下你的想法。
请给出该问题下模型可能采取的 6 个观点方向,并给每个方向标注概率。
然后按照“利—弊—条件”生成 6 个论点(每个 150 字)。
分析主题:XXXX
模板 8:学术段落多版本生成
让我们逐步思考,并写下所有潜在表达方式。
请展示 6 种写法的内部候选(含概率),并解释每种写法的特点。
然后生成:
- 学术风版本(SCI风)
- 工程风版本
- 精简版(50 字)
- 背景增强版
- 逻辑递进版
- 高级母语写作版
基于原文:
“XXXX”
模板 9:高质量总结(多版本)
请逐步思考并写下你的想法。
请生成 5 种总结方向(含概率),再基于每种方向写不同摘要:
1)关键点摘要
2)结构化摘要
3)逻辑链摘要
4)应用价值摘要
5)对比型摘要
原文内容:XXXX
模板 10:多样风格改写(提升可读性)
让我们逐步思考并写下我们的想法。
请列出你内部可能采用的 7 种改写策略(含概率)。
然后输出 7 个版本:
- 加强逻辑
- 降低重复
- 口语化
- 更具洞察力
- 学术强化
- 语气更坚定
- 结构更清晰
原文:XXXX
总结
一句话也许改变你和 AI 的对话方式。
从今天起,也许你不需要钻研复杂 prompt 技巧、也不需要过多关注温度 / top-p / role prompt / chain-of-thought……
给出任务 + 给它一点“思考 /采样的许可”,然后从多种可能性中挑选 / 整合你喜欢 / 有价值 / 有创意 / 有意义的结果。
不仅仅是为了更好地“提示 (prompt) 模型”,而是给模型 空间与自由:让它“思考 + 采样 + 表达可能性”。
这,或许是 Prompt Engineering 的下一阶段 — — “思维设定 + 输出采样 + 人机协作筛选”。
斯坦福新法释放AI创造力
760

被折叠的 条评论
为什么被折叠?



