深入浅出大模型：从 0 到 1 构建推理模型，（非常详细）从零基础到精通，收藏这篇就够了！

原创于 2025-07-03 11:22:50 发布 · 936 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#大模型 #人工智能 #语言模型

2024 年，大语言模型（LLM）领域呈现出日益专业化的趋势。除了预训练和微调，检索增强生成（RAG）到代码助手等专用应用纷纷崛起。这一趋势预计在 2025 年将进一步加速，届时模型优化会更聚焦于特定领域和应用场景（即 “专业化”）。

阶段 1-3 是开发 LLM 的常规步骤，阶段 4 针对特定用例开发 LLM。

推理模型正是专业化的典型方向——通过针对性优化，使LLM在需要中间步骤的复杂任务（如谜题、数学证明、代码编写）中表现更优。但需注意，这种专业化并非取代其他类型的大模型应用，因为将大模型改造成推理模型也会引入一些局限性，后文将详细讨论这一点。

1、如何定义“推理模型”？

在人工智能（或广义机器学习）领域，模糊且争议不断的定义屡见不鲜，“推理模型” 这一概念也不例外。在本文中，“推理” 被定义为通过多步骤中间过程解决复杂问题的过程。例如：

简单事实问答（“法国首都是哪里？”）无需推理
基础算术（“时速60英里行驶3小时的距离？”）需简单推理（识别距离=速度×时间关系）

普通大模型可能仅给出简短答案（如左图所示），而推理模型会展示思考过程。（注：许多未专门针对推理任务开发的大模型，也能在回答中提供中间推理步骤。）

如今，当我们提及推理模型时，通常指擅长处理更复杂推理任务的大模型，例如解决谜题、谜语和数学证明等。同时，当前多数标榜 “推理模型” 的大模型会在输出中包含 “思考” 过程，至于模型是否真正具备 “思考” 能力，以及如何实现 “思考”，则是另一话题。

推理模型中的中间步骤有两种呈现形式：一是如前图所示，直接输出思考轨迹；二是部分推理大模型（如 OpenAI 的 o1）会通过多轮迭代生成中间步骤，但这些步骤不会展示给用户。

需要注意的是，“推理” 体现在两个不同层面：1）通过多步中间过程处理输入并生成输出；2）将某种推理过程作为响应的一部分提供给用户。

2、何时使用推理模型？

在明确了推理模型的定义后，我们进入更关键的环节：如何构建和优化用于推理任务的LLM？但在深入技术细节前，需先理清一个核心问题：推理模型究竟适用于哪些场景？

推理模型专为解决复杂任务而设计，对于摘要生成、翻译或基于知识的问答等简单任务，推理模型并非必需。事实上，在所有场景滥用推理模型可能导致效率低下和成本增加，这类模型通常使用成本更高、输出更冗长，甚至可能因 “过度推理” 而更容易出错。因此，核心原则依然是：为任务选择合适的工具（或大模型类型）。

下图总结了推理模型的主要优势和局限性。

推理模型的主要优势和劣势

3、DeepSeek推理模型训练流程解析

在探讨构建和优化推理模型的四种主要方法之前，我们先简要了解下《DeepSeek R1 技术报告》中描述的训练流程。这份报告是一个有趣的案例研究，为开发推理大模型提供了方法论框架。

值得注意的是，DeepSeek 并未发布单一的 R1 推理模型，而是推出了三个不同版本：DeepSeek-R1-Zero、DeepSeek-R1 和 DeepSeek-R1-Distill。

根据技术报告描述，可以将这些模型的开发过程总结为下图：

DeepSeek 三种不同推理模型的开发过程

1.DeepSeek-R1-Zero：该模型基于 2024 年 12 月发布的 671B 参数预训练模型 DeepSeek-V3 构建。研发团队采用强化学习（RL）进行训练，设计了两类奖励函数。这一过程被称为 “冷启动” 训练，因为它跳过了监督微调（SFT）阶段，而传统的人类反馈强化学习（RLHF）通常包含这一步骤。

2.DeepSeek-R1：这是 DeepSeek 的旗舰推理模型，基于 DeepSeek-R1-Zero 构建。通过额外的监督微调阶段和强化学习训练进一步优化，弥补了 “冷启动” 模型的不足。

3.DeepSeek-R1-Distill：利用前序步骤生成的监督微调数据，DeepSeek 团队对 Qwen 和 Llama 系列模型进行微调以增强推理能力。尽管并非传统意义上的 “蒸馏”，这一过程涉及在 671B 大型模型 DeepSeek-R1 的输出数据上训练较小模型（如 Llama 8B/70B 和 Qwen 1.5B-30B）。

4、构建和优化推理模型的四种主要方法

本节将梳理当前用于增强 LLM 推理能力和构建专用推理模型（如DeepSeek-R1、OpenAI 的 o1/o3 等）的关键技术。

1）推理时扩展（Inference-time Scaling）

提升 LLM 推理能力（或泛指任何能力）的一种方法是推理时扩展。通过增加推理阶段的计算资源投入，提升模型输出质量，而非修改模型本身。

面对复杂问题时，给予更多时间梳理思路往往能得出更好的答案。同理，可以通过技术手段让 LLM 在生成答案时 “思考” 更充分。提高推理时可扩展性有两种方法：

思维链（CoT）提示法： 在输入提示中加入"逐步思考"等指令，引导模型生成中间推理步骤而非直接给出答案。实验显示，这种方法可使复杂问题解答准确率提升，但对简单知识型问答（如"法国首都是哪？"）效果有限。

2022 年《Large Language Models are Zero-Shot Reasoners》论文中一个经典 CoT 提示的例子。

CoT 方法可以看作是推理时扩展，因为它通过生成更多输出 token 增加了推理成本。

投票与搜索策略： 例如通过 “多数投票” 让模型生成多个答案并选择高频结果，或使用波束搜索（beam search）等算法优化输出。具体细节可参考 2024 年论文《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》。

不同的基于搜索的方法依赖基于过程奖励的模型来选择最佳答案

DeepSeek R1 技术报告将常见推理时扩展方法（如基于过程奖励模型、蒙特卡洛树搜索的方法）归类为 “未成功尝试”，这表明，DeepSeek 并未明确使用这些技术，而只是利用了 R1 模型生成更长响应的自然倾向。与 V3 基础模型相比，R1 模型自然倾向于生成更长的响应，这可以说是一种隐式的推理时扩展形式。

推测 OpenAI 的 o1/o3 模型使用了推理时扩展，这也解释了其较高的使用成本（相比 GPT-4o 等模型）。除推理时扩展外，o1/o3 很可能采用了类似 DeepSeek R1 的强化学习训练流程。

2）纯强化学习（Pure RL）

DeepSeek R1 论文的一大亮点是证明了推理能力可通过纯强化学习（RL）自然涌现。我们进一步拆解其含义：

如前所述，DeepSeek 开发了三类 R1 模型。首个版本DeepSeek-R1-Zero基于 2024 年 12 月发布的 671B 预训练基座模型 DeepSeek-V3 构建。与传统 RL 流程（先监督微调 SFT，再强化学习）不同，R1-Zero 跳过了 SFT 阶段，仅通过强化学习训练，见下图。

DeepSeek-R1-Zero模型的开发过程

尽管该过程类似常见的人类反馈强化学习（RLHF，用于偏好调优 LLM），但关键区别在于跳过了监督微调（SFT）的指令调优阶段，因此被称为 “纯” RL。（注：LLM 领域的 RL 与传统 RL 有显著差异，此处暂不展开讨论。）

在奖励函数设计上，R1-Zero 未使用基于人类偏好的奖励模型，而是采用两类奖励：

准确性奖励：通过 LeetCode 编译器验证代码答案，用确定性系统评估数学问题。
格式奖励：借助 LLM 裁判确保响应符合预期格式（如将推理步骤置于标签内）。

这种方法足以让 LLM 发展出基础推理能力。研究团队观察到训练中模型突然开始自主生成推理痕迹（即"Aha!时刻"），表明推理能力可通过纯RL诱导产生，如下图所示。

DeepSeek R1 技术报告中的一张图展示了“Aha!”时刻的出现

尽管 R1-Zero 并非顶级推理模型，但其通过生成中间 “思考” 步骤证明了推理能力，验证了纯 RL 构建推理模型的可行性，DeepSeek 是首个公开该方法的团队。

3）监督微调和强化学习（SFT + RL）

接下来看 DeepSeek 的旗舰推理模型DeepSeek-R1，其开发流程为构建推理模型提供了通用框架。该模型在 R1-Zero 基础上，通过额外的监督微调（SFT）和强化学习（RL）提升推理性能。

需注意，先 SFT 后 RL 是标准 RLHF 流程的常见步骤，OpenAI 的 o1 很可能采用了类似方法。

DeepSeek-R1模型的开发过程

冷启动 SFT 数据生成：DeepSeek 用 R1-Zero 生成“冷启动”监督微调数据，并基于此进行指令微调，随后进入 RL 阶段。
指令微调与强化学习：RL 阶段沿用 R1-Zero 的准确性和格式奖励，但新增一致性奖励以避免响应中出现多语言混合问题。在后续 SFT 阶段，模型生成 60 万条思维链（CoT）数据和 20 万条事实性数据，用于进一步微调基座模型 DeepSeek-V3，最终通过 RL 完成训练。
最终强化学习：结合规则化准确度奖励（数学/代码问题）与人类偏好奖励（其他问题），形成混合奖励机制。

最终 DeepSeek-R1 由于增加了 SFT 和 RL 阶段，性能较 DeepSeek-R1-Zero 有显著提升，如下表所示。

OpenAI A1 与 DeepSeek R1 模型的基准测试对比

4）纯监督微调和知识蒸馏（SFT+Distillation）

到目前为止，我们已经介绍了构建和改进推理模型的三种主要方法：

推理时扩展，一种无需训练或修改底层模型即可提高推理能力的技术。
纯强化学习，如 DeepSeek-R1-Zero，它表明推理可以作为一种学习行为出现，而无需监督微调。
监督微调加上 RL，从而产生了 DeepSeek 的旗舰推理模型 DeepSeek-R1。

那么，最后一种方法是什么呢？

模型“蒸馏”。

DeepSeek 发布的较小模型（如 Llama 8B/70B、Qwen 1.5B-30B）通过 “知识蒸馏” 训练，即在大模型生成的 SFT 数据上微调小模型。需注意，这并非传统意义上的知识蒸馏（传统蒸馏是让小模型学习大模型的输出概率分布）。

此处的蒸馏指的是在由较大 LLM 生成的 SFT 数据集上，对较小的 LLM（例如 Llama 8B 和 70B 以及 Qwen 2.5 模型（0.5B 到 32B））进行指令微调。具体来说，这些较大的 LLM 是 DeepSeek-V3 和 DeepSeek-R1 的一个中间检查点。实际上，此蒸馏过程使用的 SFT 数据与上一节中描述的用于训练 DeepSeek-R1 的数据集相同。

下图中突出显示了蒸馏部分。

DeepSeek-R1-Distill模型的开发过程

为什么要开发这些“蒸馏”模型？主要有两个原因：

效率优势：小模型运行成本更低，且可在低端硬件上部署，对研究者和开发者更友好。
纯 SFT 基准测试：通过对比验证，展示仅靠高质量 SFT 数据（无需 RL）能将模型推理能力提升到何种程度。

下表对比了蒸馏模型与其他模型的性能：尽管蒸馏模型远小于 R1，但其性能相对于 R1-Zero 表现亮眼，且优于部分同类模型（如推测为 o1 蒸馏版的 o1-mini）。

蒸馏模型与非蒸馏模型的基准比较

此外，DeepSeek 团队在 32B 规模的 Qwen 模型上测试了纯 RL 与适配优化的效果。结果表明：对小模型而言，蒸馏（基于高质量 SFT 数据）远优于纯 RL，暗示 RL 可能不足以在小模型中诱导强推理能力，而 SFT 是更有效的策略。

在较小的 32B 模型上对蒸馏和强化学习进行了基准比较

5、小结

在本节中，我们探讨了构建和改进推理模型的四种不同策略：

推理时扩展无需额外训练，但会增加推理成本，随着用户数量或查询量增长，大规模部署成本会显著上升。然而，对于本身性能较强的模型，这仍是提升推理表现的简单有效策略。笔者推测，OpenAI 的 o1 很可能采用了推理时资源扩展，这也解释了为何其单 token 使用成本高于 DeepSeek-R1。
纯强化学习在研究方面很有意思，纯 RL 为 “推理能力作为涌现行为” 提供了关键洞见，具有重要价值。但在实际模型开发中，*强化学习与监督微调结合（RL + SFT）才是更优选择，这种组合能催生更强的推理模型。笔者进一步推测，o1 的训练很可能也采用了 RL + SFT 方案。更具体地说，o1 或许基于比 DeepSeek-R1 更弱、更小的基座模型，但通过 RL + SFT 与推理时资源扩展的协同，弥补了基座模型的不足。
RL + SFT 是构建高性能推理模型的关键方法。DeepSeek-R1 的技术路线为此提供了清晰的实践范本：通过多阶段训练（冷启动数据生成、多维度奖励函数设计、迭代式数据增强），实现推理能力的系统性提升。
蒸馏是一种颇具吸引力的方法，尤其适用于构建更小、更高效的模型。但该方法的局限性在于，其创新驱动力较弱。蒸馏始终依赖现有更强模型生成监督微调数据，难以催生下一代推理模型的突破。

6、如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

2024最新版优快云大礼包：《AGI大模型学习资源包》免费分享**

一、2025最新大模型学习路线

一个明确的学习路线可以帮助新人了解从哪里开始，按照什么顺序学习，以及需要掌握哪些知识点。大模型领域涉及的知识点非常广泛，没有明确的学习路线可能会导致新人感到迷茫，不知道应该专注于哪些内容。

我们把学习路线分成L1到L4四个阶段，一步步带你从入门到进阶，从理论到实战。

L1级别:AI大模型时代的华丽登场

L1阶段：我们会去了解大模型的基础知识，以及大模型在各个行业的应用和分析；学习理解大模型的核心原理，关键技术，以及大模型应用场景；通过理论原理结合多个项目实战，从提示工程基础到提示工程进阶，掌握Prompt提示工程。

L2级别：AI大模型RAG应用开发工程

L2阶段是我们的AI大模型RAG应用开发工程，我们会去学习RAG检索增强生成：包括Naive RAG、Advanced-RAG以及RAG性能评估，还有GraphRAG在内的多个RAG热门项目的分析。

L3级别：大模型Agent应用架构进阶实践

L3阶段：大模型Agent应用架构进阶实现，我们会去学习LangChain、 LIamaIndex框架，也会学习到AutoGPT、 MetaGPT等多Agent系统，打造我们自己的Agent智能体；同时还可以学习到包括Coze、Dify在内的可视化工具的使用。

L4级别：大模型微调与私有化部署

L4阶段：大模型的微调和私有化部署，我们会更加深入的探讨Transformer架构，学习大模型的微调技术，利用DeepSpeed、Lamam Factory等工具快速进行模型微调；并通过Ollama、vLLM等推理部署框架，实现模型的快速部署。

整个大模型学习路线L1主要是对大模型的理论基础、生态以及提示词他的一个学习掌握；而L3 L4更多的是通过项目实战来掌握大模型的应用开发，针对以上大模型的学习路线我们也整理了对应的学习视频教程，和配套的学习资料。

二、大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

三、大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

四、大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

五、大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

2024最新版优快云大礼包：《AGI大模型学习资源包》免费分享