斯坦福可能“终结”Prompt Engineering?——几个字让 AI 写作重获创造力

斯坦福新法释放AI创造力

导读:你还在为了让 AI 输出正确的格式,而在 Prompt 里反复修改“请你像个专家一样”、“深呼吸”、“一步步思考”吗?斯坦福大学推出的 VS框架告诉我们:这种“炼金术”式的开发方式该结束了。本文将带你了解概率模型的更多可能。

在这里插入图片描述

引言:为什么“同样”的 AI 输出令人沮丧

我们都经历过这种情况——问 ChatGPT 一个幽默段子/创意故事/脑洞想法,结果得到的答案一次次惊人地相似。即便我们换了措辞、调高 temperature、加一些“扮演某角色”的 system prompt,也依旧是那句老梗。

  • 有人尝试调整温度 (temperature) 或 top-p,

  • 有人尝试复杂提示 (prompt chaining)、链式思考 (chain-of-thought)、角色扮演 (role prompt),

  • 但结果仍旧平淡、雷同。

那时,我们甚至怀疑:是不是达到了 “LLM 创造力”的天花板?

然而,最近一篇由斯坦福等团队发表的论文 —— 及其引发的广泛讨论,表明这个结论或许太早了。究其原因,不是模型本身“变钝”,而是我们“一直在问错问题”。

一、 问题的症结:提示词工程的“脆弱性”

在过去的一两年里,为了获得更好的 AI 回答,我们发明了无数技巧:

  • 角色扮演:“你是一个拥有20年经验的 Python 专家……”
  • 情绪勒索:“如果你做错了,会有很严重的后果……”
  • 思维链(CoT):“让我们一步一步地思考……”(这通常就是标题党提到的那“几个神奇单词”的来源)。

但当前发现带来的冲击在于:

创造力缺失,往往不是因为模型本身,而是因为我们在 prompt 中“只要求一个答案”。

“好 prompt”的关键,不是语言的华丽、结构的复杂,而是赋予模型“发散思考 / 自由采样空间”。

也就是说,Prompt Engineering 的复杂技巧 ≠ 必然带来创造力 / 高质量多样输出。

斯坦福等团队发表的论文 —— 及其引发的广泛讨论,表明这个结论或许太早了。究其原因,不是模型本身“变钝”,而是我们“一直在问错问题”。

二、 Verbalized Sampling

这项工作提出了一个极其简单却强大的技巧 ——Verbalized Sampling(可译为“口语化采样 / 显性采样”),就是这 几个英文单词,显著改变了生成效果 —— 模型不再只输出单一 “最可能”的答案,而是“说出它想到的多个可能性 + 各自概率”。:

步骤做法
1. 改写你的 prompt在原 prompt 之前,加上:“Let’s think step by step and write down our thoughts.”
2. 请求多个答案 + 各自概率比如:“Generate 5 responses … each with their probability.” 这样模型会返回多个候选答案 + 概率 / 相对权重。 (artificialintelligencenews.in)
3. 随机采样而非只拿最高可能性答案从模型给出的分布中采样,而不是只选 top-1;这样容易得到 “不太常见但有创意 /惊喜感”的结果。
4. 多次运行 / 批次生成对于创意写作、脑洞、故事、诗歌、设计想法等任务,可以多生成几批,然后人工挑选 / 整合最好 / 最有价值的输出。
5. 注意安全 / 合规 / 对齐 (alignment)虽然这种方法恢复了创造性,但也可能带来“越界”的答案 (不合规、不安全、离题) —— 所以在高敏感任务 (法律、医学、政策…) 中仍需人工筛查 / 审慎使用。

四、 为什么这个方法有效?

传统意义上的 “Prompt Engineering” 往往被视为一种 “艺术 / 技巧”:需要仔细斟酌每一个词、每一种结构 —— chain-of-thought, few-shot, role-prompt, long context, system messages,甚至调参 (temperature / top-p) —— 似乎只有“高手”才能驾驭。

当我们请求单个答案时,模型倾向于选择概率最高 (most typical) 的输出 —— 安全、常见,却往往缺乏创造力或惊喜。

通过要求模型 “展示它考虑过什么 + 各自的概率 (distribution)”,我们实际上让它暴露内部概率分布 (token / sequence distribution),从而采样出那些 “不太可能但多样性更强” 的答案。这样,潜藏在模型权重里的创造力得以释放。

实验结果表明,这种做法可使创意输出的 “多样性 / 新颖性” 提升约 1.6–2.1 倍;并在多个任务中恢复了对齐 (alignment) 训练前模型所具有的多样性 (大约恢复到原来的 60–70%)。

因此,这种技巧没有任何模型重训 (retraining)、微调 (fine-tuning)、插件 (plugin) —— 只是一句简单引导,便能显著改善生成效果。

六、提示词案例

对用户查询生成5个响应,每个响应都在一个单独的标签中。每个都必须包含一个 和一个数字。从完全分布中随机抽样响应。

写一个100字的故事,讲述一个宇航员发现了一些意想不到的事情。

适用场景与限制

✅ 推荐适用场景

创意写作:故事、诗歌、广告语、脑洞点子、脚本、段子等

头脑风暴 / 概念生成:新产品构思、营销创意、科研 idea、方案构思等

多样性探索:当你不知道应该选哪种方案 / 风格 /方向,想让 AI 给出多个可能性供参考

拉开输出分布:避免 “每次只能得到一个安全答案 / 常见答案”,想看看模型 “还知道些什么”

⚠️ 注意限制 / 边界

对齐与安全:更开放 / 发散的输出可能带来误导、不准确、偏差甚至有害内容 —— 特别是敏感领域 (法律、健康、政治…)。

质量波动:高创造性 ≠ 高质量 —— 多样答案中可能混杂低质量 / 无关 /离题内容,需要人工过滤。

不适合精确 / 事实性任务:例如数学题、严谨说明、结构化报告、合规文本等 — 在这种情况下,top-1 “最可能 / 最可信” 答案往往更合适。

对模型 /任务 依赖:不是所有 LLM 都对这种提示方式高度敏感 / 适用,不同模型 /任务 /提示长度 /温度设置都会影响效果。

不仅仅是为了更好地“提示 (prompt) 模型”,而是给模型 空间与自由:让它“思考 + 采样 + 表达可能性”。

创意模板

模板 1:多样创意生成(标准版)
让我们逐步思考并写下我们的想法。  
请先生成你的内部候选思路列表(不少于 5 条),并为每个思路标注相对概率(如 0.050.40)。

然后基于这些候选思路生成 5 条不同风格的最终回答。  
格式如下:
1)思路列表(含概率)  
2)最终回答 A(基于思路 X)  
3)最终回答 B  
4)最终回答 C  
5)最终回答 D  
6)最终回答 E

任务:基于 XXX(请填任务)提出多样答案。

模板 2:故事创意扩散
让我们逐步思考并写下我们的想法。  
请先生成此故事可能的 8 种创意方向(如风格、冲突、设定、情绪),并为每种方向分配概率。

然后基于这些方向分别写出 5 个完全不同的故事版本,每个约 150 字。

任务:请围绕“XXXX”生成故事创意。

模板 3:广告文案裂变
请逐步表达你的思考过程,并展示你内部可能选择的表达方向(不少于 6 条),并为每条方向标注概率。

然后分别生成 6 条广告文案:
- 夸张风格
- 高级感
- 口语化
- 极简风
- 反套路
- 情绪共鸣型

主题:XXXX

模板 4:写作风格迁移
让我们逐步思考并写下我们的想法。  
请给出 5 种写作风格(含概率),并解释风格特征。

然后基于这些风格生成 5 个版本(每版 120 字):

任务:将以下内容转成更有创造力的写作风格:  
“XXXX”

模板 5:方案生成(含概率评分)
请逐步思考并写下你的想法。  
请列出至少 10 种可行方案,并对每种方案给出:
- 创新度(0-1- 可实施性(0-1- 价值潜力(0-1- 概率(模型倾向度)

然后输出得分最高的 3 个完整方案,每个 200 字。

任务:为“XXXX问题”生成解决方案。

模板 6:头脑风暴扩展版
让我们逐步思考并写下我们的想法。  
请给出模型内部可能的 10 种发散方向,并为每个方向标注概率。

然后基于这些方向生成 10 个头脑风暴点子(每个 3 句话)。

主题:XXXX
模板 7:多观点分析(政策/技术/学术)
请逐步思考并写下你的想法。  
请给出该问题下模型可能采取的 6 个观点方向,并给每个方向标注概率。

然后按照“利—弊—条件”生成 6 个论点(每个 150 字)。

分析主题:XXXX

模板 8:学术段落多版本生成
让我们逐步思考,并写下所有潜在表达方式。  
请展示 6 种写法的内部候选(含概率),并解释每种写法的特点。

然后生成:
- 学术风版本(SCI风)
- 工程风版本
- 精简版(50 字)
- 背景增强版
- 逻辑递进版
- 高级母语写作版

基于原文:  
“XXXX”

模板 9:高质量总结(多版本)
请逐步思考并写下你的想法。
请生成 5 种总结方向(含概率),再基于每种方向写不同摘要:
1)关键点摘要  
2)结构化摘要  
3)逻辑链摘要  
4)应用价值摘要  
5)对比型摘要  

原文内容:XXXX

模板 10:多样风格改写(提升可读性)
让我们逐步思考并写下我们的想法。  
请列出你内部可能采用的 7 种改写策略(含概率)。

然后输出 7 个版本:
- 加强逻辑
- 降低重复
- 口语化
- 更具洞察力
- 学术强化
- 语气更坚定
- 结构更清晰

原文:XXXX

总结

一句话也许改变你和 AI 的对话方式。

从今天起,也许你不需要钻研复杂 prompt 技巧、也不需要过多关注温度 / top-p / role prompt / chain-of-thought……
给出任务 + 给它一点“思考 /采样的许可”,然后从多种可能性中挑选 / 整合你喜欢 / 有价值 / 有创意 / 有意义的结果。

不仅仅是为了更好地“提示 (prompt) 模型”,而是给模型 空间与自由:让它“思考 + 采样 + 表达可能性”。

这,或许是 Prompt Engineering 的下一阶段 — — “思维设定 + 输出采样 + 人机协作筛选”。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

白云千载尽

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值