“推理”和“思考”模型到底是什么？

最新推荐文章于 2025-07-02 11:01:54 发布

原创最新推荐文章于 2025-07-02 11:01:54 发布 · 1.4k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #python #机器学习 #microsoft #算法 #设计模式 #开发语言

去年九月，OpenAI发布了首个“推理”模型——o1。这款模型与之前的版本不同，它在给出答案之前会先“思考”，采用一种逐步推理的方法来解决问题。OpenAI的解释：

Similar to how a human may think for a long time before responding to a difficult question, o1 uses a chain of thought when attempting to solve a problem.

就像人类在面对难题时可能需要长时间思考一样，o1在解决问题时也会使用“思维链条”。

这种方法带来了惊人的效果，尤其在编程和数学领域表现尤为突出。[OpenAI的o1模型在解答竞赛数学题时，得分比非推理版本的GPT-4高出6倍，在解决编码挑战时更是高出8倍。

推理模型的成功引发了AI界的广泛关注，各大实验室纷纷跟进，推出了自己的推理模型。四个月后，DeepSeek也发布了自己的推理模型，并迅速让这一概念成为了行业热词。现在，Claude和ChatGPT也都加入了“思考模式”或“推理按钮”。

Elon Musk的Grok

但推理模型究竟是如何工作的呢？它们是如何学会“推理”的？在编程和数学领域表现优秀，为什么它们在其他领域的进展却显得有些局限？本文将一起探讨推理模型的诞生与发展，了解它们是如何构建的，以及它们对AI生态系统的深远影响。

与AI领域的其他技术一样，推理模型并非神奇的存在，虽然它们的工作机制并未完全公开和解释清楚，但通过一系列精巧的设计与技术，它们能有效地提高推理能力。

目录概览

这篇文章内容较为详细，如果你对这一领域较为熟悉，可以选择跳过某些部分。

为了方便快速了解，下面是简要的要点概述：

1.长提示更有效：早期的提示工程师发现，长提示比短提示更具优势，因为长提示包含更多细节、示例和上下文，有助于模型更好地理解任务。
2.引导模型进行推理：通过“思维链”提示技术，鼓励模型逐步推理并输出自己的思维过程。
3.训练模型进行推理：我们通过精心设计的推理数据示例，并在微调过程中对模型的推理过程进行评分，从而训练模型更好地进行推理。
4.OpenAI的o1的出现：o1的出现证明了训练模型进行推理能够显著提升性能，特别是当模型能思考更长时间时，效果尤为突出。
5.DeepSeek的亮相]：DeepSeek的R1使推理模型成为家喻户晓的名词，并通过一个免费的聊天机器人展示了可见的推理过程。不过，该团队的研究也揭示了推理模型的局限性。
6.推理模型的优缺点：推理模型在定量领域（如数学和编程）表现优异，但在定性领域的表现提升则有限。
7.推理模型的影响：推理模型的崛起改变了计算资源的使用方式，并将导致AI认知差距的出现。

1️⃣ 长提示更有效

自从ChatGPT推出以来，越来越多的人开始探索最佳的提示工程实践。这些技巧和窍门能够帮助模型生成更高质量的回答。有些方法看起来可能比较怪异，例如向LLM承诺小费，或者在模型回答得好时不给它惩罚。

其中最重要的发现之一是，短提示常常效果不佳。当我们提供更多的细节、上下文和示例时，模型的回答通常会更准确和更有价值。为了做到这一点，我们可以采取以下几种方式：

提供更详细的指示：给出清晰、全面且详细的任务描述。在提示的开头明确指出核心任务，并在结尾再强调一遍。
提供理想的交互示例：展示理想的输出格式，给出输入和相应的理想输出。通过一个或多个示例，展示如何用不同的方式呈现所需的结果。你可能听过“零样本”、“一样本”或“少样本”学习，这里提到的就是这种方法，只是把“样本”换成了“示例”。
提供额外的上下文：可以附加文档、定义、说明或其他相关的参考资料供模型参考。这种方式也被称为“检索增强生成（RAG）”，意味着通过增强提示中包含来自数据集的相关信息来帮助模型更好地完成任务。

这些方法都会让提示变得更长，并为模型提供更多的指示、示例和参考资料，从而帮助它更好地完成任务，最终获得更精准的结果。

展示了提示中增加上下文的量与答案正确性之间的关系。随着增加的上下文量增加，正确性提升，尽管在某个点后会出现回报递减现象

研究表明，在一系列基准测试中，较长的提示表现更好。尽管在某个阶段会出现递减的效果，但最佳的提示长度通常在16k到64k个token之间，这相当于12,000到48,000个单词（或24到96页的单行文本）。这个范围比大多数常见的提示要长得多。

那么，为什么长提示更有效呢？从根本上讲，LLM是一个下一个词预测模型，它不断地预测下一个最可能出现的词。在预测时，LLM会考虑提示中所有先前的token，而不仅仅是最近的几个。因此，提供的每个额外的token，实际上是帮助模型减少了“可能解释空间”，从而减少了任务的歧义性。

这就像是玩“20个问题”游戏——如果已经问了19个问题，猜出答案显然比只问一个问题容易得多。通过提供详细的上下文、示例和具体指示，我们实际上是在给模型更多“已解答的问题”，让它能够在作答之前更精准地理解我们的任务，而不是在不确定的情况下进行广泛的假设。

2️⃣ 提示模型进行推理

大模型的表现，很多时候和能处理多少 token 有直接关系。而这里说的 token，不只是你输入进去的那些内容，还包括它自己生成的输出。

没错，模型在生成回复时，每一个字、每一句话，都会被自己“再读一遍”，用来决定接下来该说什么。这意味着：

输出token的作用，和输入token一样重要。

换句话说，如果模型写得越多、思考得越久，它等于在“延长”你给它的提示，这反而能帮助它理解得更深、答得更好。

这就引出了一个经典的提示技巧：让模型“多想几步”再给答案。

在提示工程刚刚兴起时，研究人员就发现，只要你在问题里加一句：

“请一步步展示推理过程”

或者更口语化一点：“逐步思考！”

模型就会变得比平时“聪明很多”。哪怕是一些没有推理能力的轻量模型，只要这样一提醒，它们也会开始像人一样分步骤思考，然后得出更靠谱的结论。

Mistral Small 不是一个推理模型，但我们可以通过在请求的末尾加上“逐步思考！”来让它像推理模型一样行动（并表现出色）

例如，Mistral Small 3.1并不是专门为推理任务训练的模型。

但只要在请求结尾加上一句“逐步思考！”，它就会切换到“逻辑模式”——不仅思路更清晰，回答也更准确。

这种提示方式被称为：

思维链提示（Chain-of-Thought Prompting，简称 CoT）

如今，CoT 已经成为大模型提示工程中的常用技巧。在我们的基准测试中，使用 CoT 后，Llama 3.2 的表现提升了 14%。

令人惊讶的是，这些模型本身并没有经过明确的“推理训练”，但通过简单提示，依然能串联出清晰的思考过程，并产出更优答案。

那么，如果我们刻意训练模型具备推理能力，是否还会带来类似甚至更强的效果？这个问题，值得继续深入。

3️⃣ 训练模型进行推理

为了理解如何训练模型具备推理能力，我们不妨先回顾一下，大多数大语言模型（LLM）在训练时都经历了哪些阶段：

1.预训练建立基础。大量的文本数据被输入到模型中，以提供多样的知识和一般语言能力。在这一阶段，模型非常擅长预测下一个token，但如果你问它一个问题，它不会直接回答，而是像继续你的思维一样预测下一个token。
2.微调让模型学会对话。在建立基础之后，我们进入所谓的“指令微调阶段”，这就是让模型“确保以用户期望的方式回答”的一种高端说法。在这个阶段，模型学习如何与用户对话和互动。最初，这项工作完全由人类完成，但现在我们有了大规模的数据集，可以作为微调的示例。
3.对齐使模型变得有用。我们的知识丰富、能够对话的模型还没准备好应对现实世界。最后的阶段——对齐，可以被看作是机器人的“培训班”：专注于让模型变得有帮助、诚实和无害。

在前两个阶段，我们可以引导模型进行推理。

在预训练阶段教授推理

如果我们有足够的推理示例，我们可以在预训练时使用它们。然而，大多数用于训练LLM的内容并不是这种格式，聘请人类来创建推理内容的成本过高且速度过慢。

Meta的Llama和微软的Phi团队完全避开了人类，使用LLM将高质量的数据改写为逐步推理的格式。

Phi-4团队从Quora、Reddit上的AMA或LinkedIn要求回答的问题中创建了问答数据集。选取了“复杂性、推理深度和教育价值”很高的内容，来源包括网页、书籍、学术论文和代码。微软之前的Phi工作很大程度上依赖于这种过滤方法。在某些情况下，这些高质量的选项被重新编写成问答内容，类似于前面的示例。这些内容都进入了它们的种子数据集中。

使用GPT-4o作为教师，团队通过多步骤提示工作流程，将种子数据“转化为合成数据……通过重写大多数有用内容，将给定段落中的内容转化为练习、讨论或结构化推理任务。”这些合成数据占据了Phi-4训练数据的40%。

通过将他们的预训练语料库大部分内容重写成教授Phi-4推理的格式，取得了良好的效果：仅凭140亿个参数，Phi-4在研究生水平的STEM和数学评估中超过了GPT-4o（后者可能有数百亿个参数）。

在微调阶段教授推理

在微调阶段，通常会使用一种叫做“强化学习（Reinforcement Learning）”的技术。

强化学习，或RL，是一个过程，其中模型的输出被评分，这个分数用于更新模型的权重。这个分数可以由人工评审员（即“人类反馈的强化学习”）、计算机程序或另一个LLM来赋予。

RL是LLM领域的一个革命性发展——ChatGPT的成功直接与OpenAI利用人类评审员来教GPT-3如何有效对话相关。此外，随着模型规模的增长，RL对于提高小模型的性能至关重要。小模型可以利用RL像上学一样，使用大模型作为教师评分它们的工作，取得显著成果。

为了使RL适应推理模型，研究人员开始为模型的每一个推理步骤进行评分，而不仅仅是评分最终结果。这种方法被称为“过程奖励模型（Process Reward Model）”或PRM，它开启了我们今天所知的推理模型。

在PRM之前，强化学习仅在模型生成完输出后对其评分。然而，使用PRM时，模型的推理步骤会在进行中得到评分。这个过程中的反馈鼓励模型在遇到死胡同时进行迭代，并返回几步进行纠正。使用PRM进行的推理过程不是线性的，而是复杂的。

通过强化学习使用过程奖励模型，出现了三种推理技巧：

1.搜索（Searching）：模型学会探索多条候选解路径来解决一个问题。
2.反思（Reflection）：模型学会识别不太可能的中间结果，并进行修正。
3.分解（Factoring）：模型学会将复杂问题分解为更简单的组件。

这些技巧使得模型几乎可以无休止地推理，将问题分解为子问题，评估每个子问题的多种解法，并将这些解法再分解为子问题……等等。我们让模型思考多久，取决于用户、预算、时间表以及任务的需求。

4️⃣ o1的到来

首个使用PRM训练的大型推理模型——OpenAI的o1，显著证明了该技术的有效性。o1在数学和编程基准测试中的表现，远超以往的成绩：

值得注意的是，OpenAI指出，o1的表现不仅通过额外的训练得到提升，还通过给予模型更多“思考”问题的时间来提高表现。

上图引入了一个新概念，“测试时计算量”（test-time compute），这个概念自那时以来就成为了前沿模型构建者的关注重点。

“测试时计算量”其实是指“模型在回应提示时花费的时间”。通过PRM训练的模型所发展出的推理策略——搜索、反思和分解——使得它们可以根据需要思考很长时间。而OpenAI指出，这与预训练同样重要，都是提高模型性能的关键杠杆。

自o1以来，增加测试时计算量已成为AI实验室提升LLM性能上限的主要方式。

去年12月，OpenAI发布了o3模型，该模型在ARC-AGI基准测试上相比o1取得了突破性成绩，ARC-AGI是一个著名的AI推理基准：

OpenAI的o系列模型在ARC-AGI推理基准上取得了显著更好的表现，但这些成就与每个模型推理的时间直接相关，这也提高了计算成本

o3虽然是一次升级，但胜利的关键实际上是让这些模型进行超长时间的计算。上图中的黄色“o3 Low”点代表的运行成本为6,677美元。OpenAI并未公布“High”点的费用，但有文章表示，它使用的计算量是“Low”点的172倍，这意味着其成本超过了100万美元。

5️⃣ DeepSeek的突破

如果说o1证明了LLM生态系统中推理是值得追求的，那么DeepSeek则将这一理念传递给了大众。部分原因在于该模型的可访问性；尝试它既免费又简单。另一部分原因则是DeepSeek的聊天机器人UI设计；推理过程中生成的推理令牌是可见的，并实时展示，让用户能够看到模型如何一步步解决问题。相比之下，o1则仍然处于付费墙后，且隐藏了推理过程。

DeepSeek如何以如此低的成本交付一个令人惊叹的模型超出了本文的讨论范围，但DeepSeek的推理模型值得回顾，因为该团队公开了他们的训练方法，揭示了一些关于推理模型构建的新颖策略和见解。

与OpenAI不同，DeepSeek团队在强化学习过程中没有使用过程奖励模型（PRMs）。相反，他们仅仅依靠强化学习来评判模型的最终输出。经过训练，R1-Zero模型意识到较长的回答更有可能导致正确答案。因此，随着训练的进行，模型逐渐增加了它在每个问题上花费的时间：

随着DeepSeek-R1-Zero通过强化学习进行训练，模型的回答平均长度不断增加

在上图中，我们可以看到随着训练的推进，模型的回答平均长度不断增加。DeepSeek团队没有像OpenAI那样通过推理数据示例来对基础模型进行微调，而是让模型通过强化学习进行“蛮力”训练。

那么，为什么DeepSeek没有使用PRMs呢？团队列出了几个原因，主要是因为他们没有使用其他LLM来评判结果的正确性，因为他们发现这会导致“奖励黑客”（reward hacking）。

如前所述，最初的强化学习尝试涉及到人类。通常是外包工人提供反馈，帮助模型学习如何进行对话、变得诚实、乐于助人和无害。

随着实验室越来越多地使用RL，人力工人的成本和速度成了瓶颈。为了应对这个问题，团队开始使用LLM（大语言模型）提供反馈。一个较大的模型作为“老师”，训练一个较小和/或新的“学生”模型。这个老师模型会评估学生模型的输出，并提供反馈，随后用于进一步训练学生模型。

这种“老师模型”模式比人工反馈具有更好的扩展性，能够降低成本并缩短训练时间（至少相对于来自人类反馈的RL）。然而，LLM的不完美性使得这种模式特别容易受到奖励黑客的影响。实际上，DeepSeek团队完全避开了这种模式。

那么，如果他们没有使用模型来评估模型输出，那在RL过程中是什么来确定正确性呢？

DeepSeek团队提供了两种评估回应的例子：对于数学问题，他们仅仅将提供的结果与已知的结果进行比较；对于编码问题，他们使用编译器确保代码能够正确运行，并将编译器输出与预定义的测试用例进行比较。没有提供其他的例子。

我们可以立刻看出一个问题：这些RL策略只适用于那些可以量化验证的问题。当然，DeepSeek证明了仅凭强化学习模型也可以学会推理。但这种技能只能在具有客观可验证结果的领域中发挥作用。

6️⃣ 推理模型的优点与局限性

推理模型在定量领域（如数学和编程）表现出色，但在定性领域的提升有限。

这一局限性在o1中表现得尤为明显，其在英语文学和英语语言测试中的得分与非推理模型相当。DeepSeek的R1论文解释了这一限制的原因。强化学习是训练模型进行推理所必需的，但只有在规模上达到使人类审阅者成本和速度不可行的情况下才会使用强化学习。要训练一个模型进行推理，你可以使用一个教师模型，冒着奖励黑客的风险，或者你只能局限于那些能够验证的问题。

除了编程和数学领域，推理模型还能帮助处理日常查询。它们的“思考”功能实际上扩展了简单的提示，提供了更多的背景信息，使得LLM能够更好地聚焦于更优的答案。但这种方式并没有超越优秀的提示；总体性能的上限仍然与非推理模型相似。

并且，推理是有代价的。更多的输出意味着更多的成本和更多的时间，通常是原来的几倍。它们应该战略性地使用：当你想要探索一个问题的多个方面、规划解决挑战的路径，或者当非推理模型无法解决代码中的错误时。

但对于大多数问题来说，推理就是“过度设计”。它既慢，成本高，而且在一般用途上比非推理模型稍微好一些。

7️⃣ 推理模型的影响

推理模型的崛起将如何改变AI生态系统？

1.最好的模型需要更长时间思考：“测试时间计算”（也就是更多时间用来打印令牌以推理问题）现已完全成为新的扩展法则。
2.计算需求将转向推理：为了支持更长的思考时间，我们需要让模型运行更长时间。由于扩展预训练的回报递减（例如，GPT-4.5和Llama 4的反响平淡），更多的AI计算资源将用于推理。
3.模型在可测试技能上的表现将持续提高：定量领域——如编程和数学——将继续改进，因为我们可以使用单元测试和其他验证方法来创建更多合成数据并进行更多的强化学习。定性能力和知识库能力将更难通过合成数据技术来解决，并将因缺乏新的有机数据而受到影响。
4.AI的认知差距将出现：使用AI进行编程的人，将与不使用AI的人有截然不同的看法。你的领域与可测试的合成数据和强化学习的重合程度越高，你会发现AI在充当实习生方面越有用。这个认知差距将在我们的讨论中制造混淆。
5.使用数据变得更加重要：在推理训练所需的规模下，人类驱动的强化学习成本昂贵且缓慢。然而，你今天在ChatGPT上的使用正在慢慢减少这一需求。成功捕获用户份额的公司——如OpenAI、Anthropic、Google和Meta——在将推理技术应用于定性问题时将拥有难以超越的优势。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述