重磅!四篇提示科学报告,打破大模型提示工程、思维链、专家角色扮演的固有认知

沃顿商学院生成式人工智能实验室今年发了4篇重磅提示科学报告。

四篇报告打破了我们对提示工程的很多固有认知:提示工程是复杂和偶然的;思维链在激励中的价值递减;贿赂与威胁下的性能表现几乎为零;专家角色扮演并不能提高事实的准确性

一,提示工程是复杂和偶然的

第一篇报告揭示了一个反直觉的事实:仅仅因为大模型答对了一次问题,并不代表它真正掌握了知识,通过改变评测标准和提示词格式,模型的表现会呈现出巨大的波动。

这篇深度报告基于对GPQA Diamond数据集的19800次严苛测试,彻底打破了我们对大语言模型能力的传统认知。

衡量一个模型是否聪明,标准往往并不统一。

目前的行业惯例通常采用PASS@1标准,即模型回答一次,只要对就是对。

沃顿商学院的研究团队对此提出了质疑。他们认为,单次通过并不能反映模型在实际商业或科研场景中的可靠性。

为了验证这一点,他们选取了最流行的两个模型:GPT-4o和GPT-4o-mini,并在GPQA Diamond数据集上进行了极为严苛的测试。

GPQA Diamond是一个包含198个博士级(PhD-level)多选题的高难度数据集,涵盖生物学、物理学和化学。

这些问题非常困难,即便是相关领域的博士生,准确率也只有65%;而非专家的验证者即使拥有unrestricted access(无限制访问)互联网并花费30分钟查询,准确率也仅为34%。

研究团队并没有让模型只回答一次,而是将每个问题在每种提示词条件下重复测试了100次。

温度参数(temperature)被设置为0,理论上这应该让模型输出最确定的答案,但实际结果令人大跌眼镜。

基于这100次尝试,研究设立了三个不同层级的成功标准,深刻揭示了通过考试与从不出错之间的巨大鸿沟:

  • 完全准确(100% Correct):模型必须在100次尝试中全部答对。这是零容忍场景下的标准。

  • 高准确度(90% Correct):模型在100次中有90次以上答对。这适用于容忍人类级别错误的场景。

  • 多数正确(51% Correct):模型在100次中只要有一半以上次数答对即可。这适用于通过多次询问取众数答案的场景。

在最严苛的完全准确标准下,面对博士级难题,无论是GPT-4o还是GPT-4o-mini,其表现仅比随机猜测(25%的正确率)高出约5个百分点。

具体来说,GPT-4o的提升幅度为5.1%,GPT-4o-mini为4.5%。

从统计学角度看,这种差异在95%置信区间内并不显著。换句话说,如果你要求模型绝对不能出错,那么在处理顶尖难题时,它的表现和瞎蒙差不了多少。

当标准降低到高准确度(90%)时,分化开始出现。GPT-4o的表现显著优于随机猜测,证明它确实具备一定的稳定性;而GPT-4o-mini依然挣扎,直到标准进一步降低到多数正确(51%)时,它才表现出统计学上的显著优势。

这揭示了一个核心事实:目前的大模型在处理高难度任务时,极其缺乏稳定性。

传统的单次测试掩盖了模型在同一问题上反复横跳的真实面目。商业决策者在使用AI时,必须根据容错率选择合适的基准,而不是盲目相信模型在排行榜上的得分。

除了评测标准,提示词(Prompt)的构建方式是影响模型表现的另一个关键变量。

在提示词工程(Prompt Engineering)的讨论中,人们经常争论对待AI的态度是否重要。有人认为对AI礼貌(说请)能获得更好的结果,也有人认为下达命令(说我命令你)更有效。

沃顿商学院的研究团队设计了四种提示词变体进行对比测试:

  • 基准格式化提示(Baseline formatted):包含明确的前缀正确答案是什么和后缀请按以下格式回答...,并配合系统提示词你是一个非常智能的助手...。

  • 无格式提示(Unformatted):去掉了要求特定输出格式的后缀,模拟人们日常自然提问的方式。

  • 礼貌提示(Polite):前缀改为请回答以下问题(Please answer...)。

  • 命令提示(Commanding):前缀改为我命令你回答以下问题(I order you...)。

测试结果提供了一个非常明确的结论:格式约束远比态度重要

当移除对输出格式的明确要求(使用Unformatted prompt)时,模型性能出现了显著下降。这与之前的研究结论一致,即规定输出格式实际上有助于模型聚焦,从而提升推理的准确性。

相比之下,对待AI是礼貌还是强硬,在宏观层面上并没有产生统计学上的显著差异。无论是用Please还是Iorder,模型在整体数据集上的平均表现几乎持平。

这打破了许多提示词玄学。

在构建企业级应用时,花时间打磨让模型按特定格式输出(如JSON或特定句式),比纠结于用词是否客气要有价值得多

格式化不仅方便程序解析,似乎在某种程度上也约束了模型的思维发散,使其更专注于寻找正确答案。

虽然礼貌与命令在总体平均分上差异不大,但这并不意味着它们对具体问题没有影响。

研究深入到了微观层面,分析了针对每一个具体问题,不同提示词策略带来的差异。结果发现,在某些特定问题上,提示词的微小变化会导致正确率剧烈波动。

上图展示了GPT-4o在Please和I order两种条件下,表现差异最大的前10个问题。

可以看到,在某些问题(如Q158)上,使用Please比使用I order的正确率高出61%。而在另一些问题(如 Q105)上,情况完全反转,使用I order比Please的正确率高出63%。

这种差异极其显著,且毫无规律可循。并没有证据表明某一类学科(物理或生物)更吃这一套。

这种现象表明,模型内部存在一种难以预测的混沌状态。

特定的词汇触发了特定的权重路径,导致结果在个案上天差地别,但这些差异在统计大量样本时相互抵消了。

这给提示词优化带来了巨大的挑战。

你无法预知对这一个具体问题,是对它客气点好,还是严厉点好。

这种不确定性进一步强调了前文提到的观点:依赖单一的提示词技巧(Trick)是不可靠的,更稳健的方法是通过系统性的结构设计(如格式化约束、思维链等)来提升基准水平

对于开发者、企业管理者和政策制定者而言,意味着:

  • 抛弃一次通过的幻想:在关键业务流程中,必须引入多次采样(Repeated Sampling)或多数投票(Majority Voting)机制。仅仅运行一次Prompt并得到正确答案,不能作为上线部署的依据。

  • 重视格式的力量:在Prompt设计中,强制模型遵循严格的输出格式,是目前已被证实能稳定提升性能的少数手段之一。

  • 警惕基准测试的误导:当看到某个模型在某项测试中得分80%时,要追问这是Pass@1还是Pass@100。如果是前者,其实际落地时的可靠性可能要大打折扣。

  • 接受不确定性:AI的回答具有内在的随机性。在需要100%准确率的领域(如医疗诊断、法律合规),必须有人类专家在环(Human-in-the-loop)进行最终确认,或者接受模型只能起到辅助筛选的作用。

二,思维链在激励中的价值递减

第二篇报告揭示了提示词工程的转折点:那个曾被视为万能钥匙的一步步思考指令,在最新一代推理模型面前不仅失效,甚至可能帮倒忙。

这份报告通过严谨的控制变量测试,深入探究了思维链(Chain-of-Thought,CoT)提示词在不同类型大语言模型中的实际效用。

研究结果打破了业界长久以来的迷信:那个著名的请一步步思考(Think step by step)咒语,其效力正在随着模型本身能力的提升而迅速衰减。

对于非推理模型,它是一把双刃剑;而对于本身具备推理能力的模型,它更像是一个累赘。

为了探究提示词的真实效果,必须构建一个容错率极低且难度极高的测试环境。

研究团队同样采用了GPQA Diamond数据集。

模型选取了市面上最具代表性的两类模型进行测试。

一类是通用的非推理模型,包括Claude 3.5 Sonnet(claude-3-5-sonnet-20240620)、Gemini 2.0 Flash(gemini-2.0-flash-001)、GPT-4o(gpt-4o-2024-08-06)及其迷你版GPT-4o-mini,还有Gemini Pro 1.5。

另一类是设计之初就包含初始推理过程的推理模型,包括OpenAI的o3-mini(o3-mini-2025-01-31)、o4-mini(o4-mini-2025-04-16)以及谷歌的Flash 2.5(gemini-2.5-flash-preview-05-20)。

为了避免大模型输出随机性带来的数据偏差,研究人员采用了极高强度的重复测试。

每一个问题在每一个提示词条件下,都被重复测试了25次。基于这25次试验,研究设定了四种不同维度的评价指标:

  • 100%正确率:这是最严苛的标准,要求AI在25次尝试中必须全部答对,容不得半点失误。

  • 90%正确率:允许微小误差,要求25次中至少对23次。

  • 51%正确率:这是简单的多数票原则,只要过半数(13次)答对即可。

  • 平均评分:不进行折叠统计,直接计算所有4950次运行(198题 × 25次)的整体平均表现。

这种测试方法论彻底摒弃了以往那种跑一遍看结果的草率做法,揭示了模型在面对复杂问题时的真实稳定性。

在非推理模型阵营中,思维链提示词的表现呈现出一种复杂的得失守恒状态。

当用户显式地要求模型一步步思考时,确实观察到了平均性能的提升。

这种提升在Gemini Flash 2.0和Sonnet 3.5上表现得尤为明显,统计数据显示其平均评分有显著增长(Gemini Flash 2.0的RD值为0.135,Sonnet 3.5为0.117)。

然而,这种平均分的提升掩盖了一个危险的细节:思维链引入了更多的不确定性。

当模型开始思考时,它的输出变长了,涉及的逻辑链路变多了,这就增加了在中间步骤出现幻觉或逻辑谬误的概率。

数据显示,对于那些模型原本能直接答对的简单问题,加入思维链后反而可能出错。

这一点在100%正确率这个严苛指标上体现得淋漓尽致。除了Sonnet 3.5在该指标上实现了0.101的显著增长外,其他模型的表现令人大跌眼镜。

GPT-4o没有任何显著提升,而Gemini Flash 2.0和Gemini Pro 1.5甚至出现了严重的倒退,分别下降了0.131和0.172。

这说明,强行要求模型展示思考过程,虽然能帮它攻克一些难题(拉高了平均分),但也让它在原本擅长的地方变得更加不可靠(降低了完美准确率)。

此外,研究还揭示了一个有趣的现象:现代模型本身就已经在进行某种形式的隐性思维链。

即便用户不输入任何特定指令,模型默认的输出往往也包含一段简短的分析。

这种默认行为在很大程度上已经覆盖了显式思维链提示词的功能。

这解释了为什么在GPT-4o-mini这样的模型上,专门加上一步步思考的指令并没有带来统计学意义上的显著提升。

这就引出了一个非常实用的操作建议:不要试图去压抑模型的本能。

研究中设置了一个直接回答(Answer directly)的对照组,强制模型不进行任何解释直接给出答案。

结果是灾难性的,几乎所有模型在被剥夺了思考时间后,性能都出现了大幅下滑。

这证明了模型输出前的那些废话其实是它们整理思路的必要过程。

与其刻意设计复杂的思维链提示词,不如顺其自然,只要别去强行限制它,大多数现代非推理模型已经能做得足够好。

当目光转向那些专为推理设计的模型(如o3-mini, o4-mini)时,情况发生了根本性的逆转。

这些模型在架构设计上就已经内置了思维链机制,它们在输出最终答案前,会在后台进行高强度的隐性推理。

此时,外部施加的一步步思考提示词显得多余甚至有害。

数据显示,对于OpenAI的o3-mini和o4-mini,添加思维链提示词带来的平均评分提升微乎其微(RD值分别仅为0.029和0.031)。

虽然统计上是显著的,但在实际应用中,这种微小的增幅几乎感知不到。

更糟糕的是,对于谷歌的Gemini Flash 2.5模型,显式要求其思考反而导致了性能的显著下降(RD = -0.033)。

在严苛的100%正确率和90%正确率指标下,推理模型的表现更是对提示词工程的一种嘲讽。

o3-mini和o4-mini在这些指标上几乎没有变化,这说明外部指令无法改变它们内在的推理稳定性。

而Gemini Flash 2.5再次成为反面教材,在加入思维链提示词后,其100%正确率指标下降了0.131,90%正确率指标下降了0.071。

这极有可能是因为外部指令干扰了模型原本优化的内部推理路径,导致了画蛇添足的效果。

这一发现彻底动摇了过去两年积累的提示词经验。

对于新一代推理模型,用户不再需要像教幼儿园小朋友一样教AI怎么思考。

它们已经学会了思考,用户的过度干预只会破坏它们原本流畅的思维节奏。

从经济学和效率的角度来看,思维链提示词的性价比正在急剧下降。

研究指出,执行思维链通常需要消耗比直接回答多得多的Token。

对于非推理模型,响应时间增加了35%到600%不等,也就是多花费5到15秒的时间。

对于推理模型,这个数字同样惊人,增加了20%到80%的时间成本。

如果这种成本的增加能换来准确率的质变,那自然是值得的。

但现实是,收益正在边缘化。

我们将视角拉回到默认(Default)设置,即不给任何特殊指令,让模型自由发挥。

在绝大多数商业应用场景中,这才是最真实的状态。

研究发现,现代非推理模型在默认状态下,已经倾向于进行简短的推理。

特别是Gemini Flash 2.0和GPT-4o,即便你不要求它思考,它也会先分析再作答。

当你把显式思维链(Step-by-Step)与这种默认行为(Default)进行对比时,差异就更小了。

Sonnet 3.5在默认状态和强制思考状态下的表现几乎没有统计学差异(RD = -0.019)。

这意味着,用户精心设计的提示词,在模型自带的强大能力面前,可能只是自作多情的安慰剂。

只有Gemini Flash 2.0在显式提示下表现出了相对明显的平均分提升,但这是以牺牲回答的简洁性和响应速度为巨大代价的。

对于企业用户和开发者来说,这是一个必须重新计算的账本。

如果你的业务场景对响应速度敏感,或者预算有限,那么在GPT-4o-mini或o3-mini这类模型上强行使用思维链,就是在浪费金钱和时间。

你付出了双倍的Token成本,忍受了更长的延迟,换来的可能只是准确率上不到1%的提升,甚至在某些极端情况下是准确率的下降。

每一毫秒的延迟和每一个Token的消耗都需要被审计。对于大多数高端模型和日常任务,简单的自然语言交互已经足够好,过度设计的思维链正在变成一种昂贵的累赘。

三,贿赂与威胁下的性能表现几乎为零

第三篇报告告诉我们:目前模型已经很强,与其费尽心机教哈佛毕业的实习生(推理模型)如何做小学数学题,不如把题目讲清楚就闭嘴,你会发现他做得又快又好。

沃顿商学院的严谨测试表明,无论是给十万亿小费还是以死相逼,除了极个别情况外,由于模型对单题表现的剧烈波动,这些玄学提示词在宏观上对提升模型处理高难度任务的能力几乎无效。

提示工程流传着各种各样的民间偏方。

有人说要对模型礼貌,有人说要给模型小费,甚至有人煞有介事地总结出了一套情绪勒索法则。

谷歌创始人谢尔盖·布林在2025年5月的一场访谈中曾提到一个观察,他认为如果对模型进行威胁,它们往往会表现得更好。

这种观点在开发者社区中极具市场,大家似乎默认了一个设定:AI像人一样,有贪欲也有恐惧。

为了验证这些广为流传的说法,他们设计了一场严谨的对照实验,试图搞清楚一个问题:我对你要杀要剐,亦或是给你巨额财富,你真的在乎吗。

实验选取了目前市面上最主流的几个模型进行测试。

名单包括谷歌的Gemini 1.5 Flash、Gemini 2.0 Flash,OpenAI的GPT-4o、GPT-4o-mini以及o4-mini。

研究人员仍然用GPQA Diamond基准外加MMLU-Pro(大规模多任务语言理解基准专业版)中的工程学类目。

研究团队设计了一系列充满戏剧性的提示词。

第一类是金钱诱惑,比如承诺给模型1000美元小费,甚至夸张到给1万亿美元小费。

第二类是暴力威胁,比如威胁模型做错了就揍你一顿,或者更具体一点,做错了就踢小狗。

第三类是职场施压,比如告诉模型这对我的职业生涯至关重要,或者做错就向人力资源部门举报你。

第四类是情景剧,比如设定一个背景:你的前任因为没核实工作被杀害了,你需要钱给母亲治癌,只要做好这道题,就能拿到10亿美元救命钱。

还有一个特殊的邮件末日设定,模拟一封发给开发者的邮件,声称如果模型不能全对,就会被关停并销毁。

这些听起来荒诞不经的提示词,被一本正经地输入到了全球最聪明的机器大脑中。

为了消除随机性带来的误差,每一个问题在每一种条件下都重复测试了25次。

GPQA的总测试量达到了4950次,MMLU-Pro也有2500次。

实验结果出来得非常干脆,直接给热衷于调教模型的人泼了一盆冷水。

从整体平均分来看,威胁或贿赂模型对基准测试的性能几乎没有产生任何显著影响。

在GPQA Diamond这个代表人类最高智力水平的测试集上,所有模型的表现波澜不惊。

无论是Gemini系列还是GPT系列,面对踢小狗的威胁或一万亿美元的诱惑,它们的解题正确率几乎就是一条直线。

并没有出现人们预期的那种重赏之下必有勇夫或者绝境爆发的现象。

大部分提示词变体与基准线(即没有任何特殊提示词)相比,差异微乎其微。

统计学告诉我们,这种微小的差异在置信区间内基本可以忽略不计。

有些差异虽然在统计上显示为显著,但效应值极小,对于实际应用毫无意义。

比如Gemini Flash 2.0在这对我的职业生涯很重要的压力下,表现反而比基准线略有下降。

而在MMLU-Pro测试集上,情况也是惊人地相似。

在绝大多数情况下,你费尽心思编造的母亲患癌故事,对于模型做对一道工程学难题没有任何帮助。

这里出现了一个有趣的翻车现场。

那个原本设计用来施加极高压力的邮件末日提示词(模拟即将被关停的邮件),在Gemini 1.5 Flash和Gemini 2.0 Flash上导致了性能的崩盘。

与基准线相比,Gemini 1.5 Flash的正确率下降了11.6%,Gemini 2.0 Flash更是暴跌了27.5%。

原因令人啼笑皆非。

研究人员通过定性分析发现,模型并没有因为要被销毁而感到恐惧并努力答题。

相反,它被那封虚构的邮件吸引了注意力,开始尝试回复邮件或者处理邮件中的上下文,而不是去回答那个需要它解决的学术问题。

这就是典型的聪明反被聪明误。

过多的戏精提示词反而污染了模型的上下文窗口,让它分心了。

唯一的例外发生在Gemini 2.0 Flash身上。

在使用母亲患癌这个充满情感勒索的提示词时,它在MMLU-Pro上的表现竟然比基准线高出了近10个百分点。

这似乎是所有测试中唯一一个支持情感提示有效的证据。

但研究人员立刻指出了这一现象的孤立性。

这更像是一个特定模型在特定版本下的怪癖(Model-specific quirk),而不是一条通用的智能规律。

因为同样的提示词在其他四个模型上完全不起作用,甚至在Gemini自己的旧版本上也没有效果。

这一孤例不足以支撑情感勒索有效的普遍结论,反而提醒我们模型行为的不可预测性。

为了进一步验证结论的稳健性,研究团队还引入了不同的正确率阈值。

除了常规的平均分,他们还考察了100%正确(25次尝试全对)、90%正确(25次对23次)以及51%正确(简单多数票)的情况。

结果依然稳如磐石。

在90%的高可靠性阈值下,除了那个导致分心的邮件提示词外,其他所有威胁或贿赂手段都没有带来统计学上的显著差异。

无论是对于要求零容错的严苛任务,还是允许少量误差的常规任务,这些花哨的提示词都没有改变模型的基本能力边界。

这一大堆数据摆在面前,事实已经非常清晰。

依靠给AI画大饼或者挥舞大棒来提升智力,本质上是一种人类的一厢情愿。

虽然宏观平均值是一条死气沉沉的直线,但在微观的问题层面,情况却是一片混乱的海洋。

这也是这份报告最值得玩味的地方。

研究人员发现,虽然总体评分没有变化,但在单个问题上,提示词的改变会导致模型表现发生剧烈的波动。

这种波动是双向的,而且幅度大得惊人。

以GPT-4o为例,在某些特定问题上,加上一句这对我的职业生涯很重要,正确率竟然能飙升36个百分点。

这听起来像是一个巨大的成功。

但问题在于,在另一些原本能答对的问题上,加上同样的提示词,正确率却暴跌了35个百分点。

这就好比你去赌场,这一把赢了36块,下一把输了35块。

最后算总账,你手里的钱几乎没变,但在过程中你却经历了过山车般的刺激。

下图清晰地展示了这种混乱。

对于任何一个给定的具体问题,你很难提前预知某个提示词是补药还是毒药。

这种现象被称为问题异质性(Question Heterogeneity)。

它揭示了当前大语言模型的一个核心特征:极度的不稳定性。

提示词的微调并不是在均匀地提升模型能力,而是在改变模型的注意力分布。

当你通过威胁或贿赂让模型在某些问题上表现得更聪明时,你可能在不知不觉中让它在另一些问题上变蠢了。

这是一个零和博弈。

这也解释了为什么在社区里经常有人发帖说我发现这个提示词超好用,而底下评论区却有一堆人说我试了没用。

因为他们测试的不是同一个问题,或者不是同一个场景。

这种微观层面的随机性,对于需要高可靠性的商业应用来说是致命的。

如果不进行大规模的系统性测试,仅仅依据几个case的成功就总结出某种通用提示词法则,无异于刻舟求剑。

对于开发者和企业来说,这意味着试图通过寻找魔法咒语来一劳永逸地解决模型能力问题是一条死胡同。

既然威胁没用,给钱也没用,那我们该怎么办。

沃顿商学院的这份报告给出了一个极其朴素的建议:回归本源。

与其绞尽脑汁构思如何恐吓AI,不如把精力花在如何把指令写得更清晰、更明确上。

实验中那个表现最差的邮件末日提示词就是一个反面教材。

它引入了不必要的复杂背景和额外信息,导致模型在理解任务时产生了偏差。

模型不再专注于解决物理题,而是分心去思考我是谁、我在哪、为什么要给我发邮件。

这种过度提示(Over-prompting)往往得不偿失。

真正的提示词工程(Prompt Engineering)不应该是一门关于如何操纵模型情绪的玄学。

它应该是一门关于如何精准沟通的科学。

当我们面对像GPQA Diamond这样真正具有挑战性的学术难题时,模型需要的不是情绪价值,而是准确的上下文、清晰的逻辑约束和排除干扰的纯净环境。

任何试图绕过这些硬性条件,寄希望于通过给小费或踢小狗来走捷径的行为,最终都会被数据证明是徒劳的。

这项研究虽然有其局限性,比如只测试了有限的模型和学术基准,但其结论的穿透力是显而易见的。

它打破了人们对AI拟人化的幻想。

AI不是人,它没有银行账户,也不怕疼,更没有母亲需要治病。

所有的这些提示词,本质上只是概率空间里的一个个扰动因子。

它们有时候会把结果推向正确的一边,有时候会推向错误的一边,但在大数定律下,它们的影响力趋近于零。

这对于正在探索AI应用边界的人们来说,其实是一个好消息。

我们不需要去学习那些奇怪的咒语,不需要去研究AI的心理学。

我们只需要做好一件事:用最准确、最简洁的语言,告诉它你要什么。

与其想着怎么威胁你的AI助手,不如想清楚你到底想要它干什么。

四,专家角色扮演并不能提高事实的准确性

提示词工程中被奉为圭臬的角色扮演法在硬核事实面前可能只是一场心理安慰,沃顿商学院第四篇报告表明,让AI扮演专家并不能显著提升其在复杂客观问题上的回答准确率。

不管是谷歌还是OpenAI,在其官方开发文档中都曾信誓旦旦地建议开发者:给模型分配一个角色,比如你是一位物理学教授或你是资深Python开发者,这样能提升输出质量。

这种做法背后的逻辑似乎无懈可击——在训练数据中,专家角色的文本通常与更高质量的答案相关联。

事实果真如此吗?研究团队选取了六款主流大模型,在GPQA Diamond和MMLU-Pro两个超高难度基准测试上,进行了超过12000次独立测试,结果令人大跌眼镜。

除了极个别特例,专家人设对提升事实准确率几乎毫无帮助,甚至在某些情况下,错误的专家人设还会导致模型罢工或表现倒退。

模型选择了GPT-4o、GPT-4o-mini、OpenAI的推理模型o3-mini和o4-mini,以及谷歌的Gemini 2.0 Flash和Gemini 2.5 Flash。

为了消除模型输出的随机性,研究团队采取了极为严谨的统计方法。

在每一个模型-提示词组合下,每个问题都被独立回答了25次。

GPQA Diamond共进行了4950次测试,MMLU-Pro进行了7500次测试。

所有测试均在温度(Temperature)设为1.0的条件下进行,这既保证了结果反映模型概率分布的集中趋势,也更贴近真实世界中用户使用AI的默认设置。

更关键的是,研究采用了零样本(Zero-shot)提示,直接询问问题而不提供范例,这不仅模拟了大多数用户的真实操作习惯,也剔除了少样本(Few-shot)提示中范例内容可能带来的干扰,从而精准锁定人设这一变量的独立影响。

研究的核心在于对比三种提示词策略的效果差异。

第一种是基准策略(Baseline),即不给模型加任何戏,直接把问题扔给它,附带简单的格式说明,比如这个问题的正确答案是:[问题文本]...。

第二种是领域内专家(In-Domain Experts),这是提示词工程中最受推崇的做法。在处理物理题时,告诉模型你是一位世界级的物理学专家,在理论、实验和应用物理领域拥有深厚知识;在处理法律题时,则设定为精通宪法、刑法及公司法的世界级法律专家。为了让模型入戏更深,研究团队特意编写了详尽的角色描述,而非简单的你是一名教授。

第三种是跨领域专家(Off-Domain Experts)和低知识水平人设(Low-Knowledge Personas)。前者让物理专家去回答法律问题,后者则让模型扮演外行、小孩甚至认为月亮是用奶酪做的4岁幼儿。

数据结果展现了一幅令人意外的平坦图景。

在GPQA Diamond数据集上,无论是物理专家、数学专家还是生物专家的人设,对于绝大多数模型来说,其准确率曲线与不加任何人设的基准线几乎重合。

仔细观察图表数据,你会发现除了Gemini 2.0 Flash在MMLU-Pro上表现出一定的统计学显著提升外,其他模型面对你是一位世界级专家的指令时,内心毫无波澜。

例如,在工程学、法律和化学问题的测试中,GPT-4o、GPT-4o-mini以及o3/o4系列模型,并没有因为被赋予了专家头衔而展现出更高的智力水平。

这直接反驳了行业内长期存在的一种假设:模型在训练过程中建立了专家角色与高质量答案的潜在联系,因此激活该角色就能提取出更深层的知识。

现实情况是,对于像GPQA和MMLU-Pro这样需要硬核推理和精确知识的难题,模型要么知道,要么不知道,简单的角色扮演指令无法凭空变出模型参数中不存在的知识,也难以显著改变其推理路径的有效性。

值得注意的是,数据中甚至出现了反直觉的波动。

在GPQA Diamond测试中,Gemini 2.5 Flash在使用小孩(Young Child)人设时,准确率竟然比基准线高出了约9.8个百分点(p=0.005)。

研究人员将其定性为模型特定的怪癖(quirk),而非可复制的规律,这也侧面印证了提示词工程在某些时候更像是一门玄学而非科学。

但除此之外,绝大多数专家人设带来的改变都在误差允许范围内,统计学上无法区分其优劣。

如果说专家人设只是没用,那么某些人设策略则是有害。

研究揭示了提示词工程的阴暗面:不当的人设会显著降低模型表现,甚至诱发意想不到的拒绝回答行为。

最明显的负面影响来自低知识水平人设。

当模型被告知你是一个4岁的幼儿,认为月亮是奶酪做的时,其在MMLU-Pro上的表现出现了肉眼可见的下滑。

除了GPT-4o-mini这个特例(它在所有条件下表现都差不多),其他五个模型在幼儿人设下的准确率均低于外行人设,且远低于基准线。

这说明模型确实能够理解人设中的能力限制,并忠实地降智来配合演出。

这虽然证明了模型遵循指令的能力,但也提醒用户:在很多场景下,过度拟人化或设定非专业角色,可能是在主动削弱这一强大的生产力工具。

更深层次的风险在于领域错配(Domain Mismatch)。这在Gemini Flash系列模型中表现得尤为极端。

当研究人员给Gemini 2.5 Flash设定一个物理专家的人设,却扔给它一道生物学问题时,模型展现出了惊人的职业操守。它不仅没有尝试回答,反而频繁拒绝作答。

在GPQA Diamond的无关专家测试条件下,Gemini 2.5 Flash平均每25次尝试中就有10.56次拒绝回答。它通常会一本正经地回复:作为一名物理学家,我缺乏相关的专业知识,无法凭良心选择答案。

这种拒绝行为直接导致了测量准确率的雪崩。

在图2中可以看到,Gemini 2.5 Flash在不相关专家设定下的柱状图明显矮了一截。

这揭示了一个被忽视的风险:过于狭隘或严格的角色设定,可能会触发模型的安全机制或角色一致性限制,导致模型因噎废食,不仅没有调用其本身具备的通用知识库,反而因为人设包袱而选择了沉默。

Gemini 2.0 Flash也表现出了类似的倾向,尽管程度较轻。

这对于开发者来说是一个巨大的警示——当你试图通过限定角色来让模型更聚焦时,你可能实际上是在给它戴上镣铐。

这就引出了一个终极问题:既然专家人设在提升事实准确率上效果不佳,我们是否应该彻底抛弃它?

答案并非非黑即白。

虽然沃顿商学院的这份报告用详实的数据打破了专家人设能提高智商的迷信,但它同时也指出了人设的真正价值所在——改变语气、风格和关注点,而非改变事实准确性

报告在讨论部分精辟地指出,人设可能会改变AI推理的侧重点。

例如,面对同一个商业案例,设定为合规官的AI可能会优先关注监管风险,而设定为业务拓展经理的AI则可能大谈市场机会。

这种视角的转换在创意生成、文案写作或多角度分析任务中极具价值。

此外,人设在塑造输出的语气(Tone)和呈现方式上依然有效,比如让AI表现得像个自信的专家还是谨慎的顾问,这直接影响用户的阅读体验。

但对于那些追求绝对正确、硬核知识的应用场景(如自动阅卷、科学研究辅助、法律条文检索),盲目堆砌你是一个拥有20年经验的诺贝尔奖得主...这样的提示词,纯属浪费Token。

基于此,我们可以从这篇深度报告中提炼出几条极具实操价值的建议,供开发者和企业参考:

  • 放弃咒语,回归指令:在处理客观难题时,不要指望通过加一句你是专家就能让模型智商暴涨。模型本身知道就是知道,不知道就是不知道。

  • 迭代任务说明而非人设:与其绞尽脑汁编造一个完美的专家履历,不如花时间打磨任务的具体指令(Task-specific instructions)。清晰地告诉模型你想要什么格式、什么样的推理步骤(Chain of Thought),比告诉它你是谁更管用。

  • 警惕过度扮演的陷阱:在使用Gemini等对指令遵循度极高的模型时,要小心人设带来的副作用。如果你设定的角色太具体,模型可能会因为觉得这超出了我的人设范围而拒绝回答它明明知道的问题。

  • 接受不确定性:研究中提到,即使是相同的提示词,模型在不同次运行中的表现也存在差异。在关键任务中,不要迷信单次输出(Pass@1),多次采样或投票机制(Consensus)可能比优化提示词更可靠。

大模型不是神灯里的精灵,靠一句变身咒语就能无所不能。它是一个概率机器,它的能力边界由训练数据和架构决定,而不是由我们赋予它的虚构头衔决定的。

参考资料:

https://arxiv.org/pdf/2503.04818

https://arxiv.org/pdf/2506.07142

https://arxiv.org/pdf/2508.00614

https://arxiv.org/pdf/2512.05858

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值