【转行大模型工程师笔记】33-语言大模型高效推理综述

最新推荐文章于 2025-12-02 15:55:42 发布

原创最新推荐文章于 2025-12-02 15:55:42 发布 · 759 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #数据库 #langchain #AI编程

长思维链 LongCoT 虽好，但是推理轨迹中充满了复杂冗余的内容，本文讨论了从预训练到推理各个阶段中有前途的未来优化方向

综述链接：https://arxiv.org/pdf/2503.21614

看了一遍，有一些有潜力的 idea，第四第五章节 SFT / RL 可能容易用上

摘要：最近的大型推理模型（LRMs），如DeepSeek-R1和OpenAI o1，已经通过在推理过程中扩大推理链（CoT）的长度，展示了显著的性能提升。然而，一个日益增长的担忧是它们倾向于产生过长的推理轨迹，这些轨迹通常充满了冗余内容（例如，重复的定义），对简单问题的过度分析，以及对更难任务的表面探索的多条推理路径。这种低效性在训练、推理和实际部署（例如，在基于代理的系统中）中引入了重大挑战，其中令牌经济性至关重要。在本文中，我们提供了一个全面的概述，即最近为提高LRMs的推理效率而进行的努力，特别关注这一新范式所带来的独特挑战。我们确定了低效性的常见模式，检查了在LRM生命周期的各个阶段所提出的各种方法，即从预训练到推理，并讨论了研究的有前途的未来方向。为了支持持续的发展，我们还维护了一个实时的GitHub存储库，以跟踪该领域的最新进展。我们希望这篇调查能为进一步的探索提供基础，并激发这一快速发展领域的创新。

论文介绍

模型建立 system2 能力的同时，也让推理路径变得过于冗余了，比如说 QwQ-32B 回答 3*3 花了 1k token

本文希望了解如何让推理更有效率：不是一般性的推理优化加速，而是让模型能够最大化每个令牌的智能

大型语言模型（LLMs），如DeepSeek V3、Qwen 2.5、LLaMA 3和GPT-4o，已经在广泛的任务中展示了非凡的能力。这些模型以类似于系统1思维的方式运行，其特征是快速、直观和自动的决策。然而，复杂的推理任务，如高级数学和形式逻辑，需要更深思熟虑和结构化的分析。为了应对这些挑战，出现了一类新的模型：大型推理模型（LRMs），包括DeepSeek R1、OpenAI-o1/o3和QwQ Team。这些模型通过显式地生成中间推理步骤（统称为推理链（CoT））来提高性能，然后产生最终答案。与LLMs的快速和基于启发式的行为不同，LRMs表现出深思熟虑和分析性的推理，类似于系统2思维。从系统1到系统2推理的范式转变是开发更强大的推理代理的基础。然而，这种能力是有代价的：LRMs的推理过程往往更慢且更冗长。如图1所示，对于一个小学水平的数学问题，QwQ-32B产生的令牌数量明显多于其系统1对应物Qwen2.5-32B-Instruct。此外，分布显示，与LLM模型Qwen2.5-32B-Instruct相比，LRM模型QwQ-32B表现出显著更高的输出长度。这一观察自然引发了一个关键问题：除了推理性能，我们如何使LRMs更高效地推理，从而最大化每令牌的智能？在LRM时代，我们提出“效率是智能的本质”。就像一个明智的人知道何时停止思考并开始决定一样，一个明智的模型应该知道何时停止不必要的深思熟虑。一个智能模型应该操纵令牌经济，即有目的地分配令牌，跳过冗余，并优化通往解决方案的路径。它应该模仿一位大师战略家，以优雅的精确度平衡成本和性能，而不是天真地遍历所有可能的推理路径。
1.1 调查结构
- 在本调查中，我们系统地回顾了LRMs中的高效推理的最新进展，并根据它们在LLM生命周期中的阶段进行分类，如图2所示。本调查所涵盖的高效推理方法的分类如图3所示。调查的组织如下：
- 第2节强调了推理低效性的模式和在LRM时代实现高效推理的挑战。
- 第3节介绍了推理阶段的高效方法。
- 第4节描述了旨在内化简洁推理的SFT方法。
- 第5节展示了如何在RL训练中控制推理长度。
- 第6节详细介绍了模型结构和训练范式，这些结构和范式本质上是高效的。
- 最后，我们在第7节中强调了解决在每个阶段所确定的限制的有前途的未来方向。
1.2 定位和贡献
- 最近，一些调查论文探索了大型推理模型的发展。这些论文专注于LRMs的训练方法，或提供了对该领域的更广泛和全面的概述。为了提供更专注的视角，一些研究检查了长推理链的推理，并分类了现有的推理范式。此外，一些调查还研究了LRMs的测试时间扩展。尽管这些贡献具有价值，但现有的调查都没有具体解决LRMs中日益增长的推理效率挑战，这是一个新兴但至关重要的主题，涉及这些模型的部署、可扩展性和实际应用。对于早期一代的LLMs，一些研究提供了关于推理效率方法的全面调查。然而，LRMs中的高效推理引入了一个独特且新兴的研究挑战，其特征是生成过多且无法控制的推理令牌。虽然传统的加速推理方法，如模型量化和剪枝，以及分布式推理系统，可以减少延迟和计算成本，但我们在本调查中的重点是提高推理过程本身的效率，而不是一般性的推理加速。
总之，本调查对文献做出了以下关键贡献：
- 我们没有提供对LRMs的一般性概述，而是专注于LRMs中新兴且关键的高效推理主题，提供了深入和有针对性的分析。
- 我们确定了推理低效性的常见模式，并概述了在大型模型中提高推理效率所面临的独特挑战。
- 我们提供了对最近旨在提高推理效率的进展的全面回顾，这些进展在LRM开发管道中进行了结构化，从预训练和监督微调到强化学习和推理。

推理效率：定义、模式和挑战

在深入研究高效推理的方法之前，我们首先定义推理效率，然后检查在LRMs中观察到的推理低效性的常见模式，最后讨论在LRM时代提高效率所面临的独特挑战。

2.1 推理效率的定义

量化了一下推理效率，好像后文也没怎么提到

我们从任务分布的角度定义推理效率，类似于元学习。LRMs的一个共同目标是在各种任务上进行高效推理。令 M 表示一个被赋予解决任务的LRM。我们评估其推理效率 η 在一个任务分布 p(T) 上，其中每个任务 T 被宽松地定义为一对 {D,Q}，其中 D 表示一个数据集，Q 表示一个相应的质量指标。我们将模型 M 的推理效率定义为：
其中，Q(M,D) 表示在数据集 D 上的解决方案质量（例如，准确性、精确匹配或创造力），C(M,D) 表示计算成本（例如，FLOPs、生成的令牌数量或推理延迟）。这个公式提供了一种原则性的方法来量化各种任务的推理效率。它强调了性能和成本之间的权衡：推理变得更加高效，要么通过改善解决方案质量 Q，要么通过减少计算成本 C。

2.2 推理低效性的模式

很多时候模型在回答问题的时候，会先把模型复述一遍，或者在过于简单的问题比如 2+3=？上反复纠结

还有就是解一个题目的时候，过早切换推理方向，没有深入的思维链

低效的推理不仅带来不好的交互体验，还会让强化学习阶段的调试变得更困难

尽管LRMs在使用长推理链解决复杂问题（如AIME）方面非常有效，但推理低效性的模式仍然存在。这些低效性表现为生成过多的冗余内容（例如，重复的问题重述），对简单问题的过度分析和验证，或者在表面和次优的思维中徘徊。
冗余内容：现有的LRMs缺乏对最小化中间推理令牌的明确优化。结果，这些模型在推理过程中经常表现出冗余，将大量输出分配给文本连贯性，而不是核心推理进展。这种类型的冗余增加了计算成本 C(M,D) 在等式1中，从而减少了效率。例如，在表1中，LRM使用138个令牌仅仅来重述和解释问题。冗长的说明和重复的措辞进一步增加了输出，而没有帮助最终解决方案。
过度思考简单问题：最近的研究表明，LRMs在根据任务复杂性分配推理预算方面存在困难。例如，观察到模型在对简单查询（如2+3=？）表现出不必要的不确定性。而不是产生简洁和直接的解决方案，这些模型倾向于生成多个冗余的推理回合，探索不必要的解决方案路径。如图1所示，尽管LRM在初始推理轨迹中达到了正确的答案，但它执行了几个额外的验证步骤，最终使用了几乎四十倍于标准指令调整LLM的令牌数量。这种冗余也导致在等式1中对简单任务的计算成本 C(M,D) 增加，其中模型 M 实现了相对较高的质量分数 Q(M,D)，从而减少了效率。
无序和次优推理：识别出一种称为“未充分思考”的现象，其中o1类LRMs过早地切换推理方向，阻碍了有前途路径的发展。这导致在复杂数学任务中产生浅层和碎片化的推理轨迹。而不是追求连贯和深入的思维线，模型在多个方法之间浅层地跳跃，导致更长的推理序列和减少的整体解决方案质量。这种浅层跳跃导致在等式1中要么减少 Q(M,D)，要么增加 C(M,D)，从而降低推理效率。
这些推理低效性在训练、推理和实际应用中提出了重大挑战。具体而言，过长的CoT序列阻碍了强化学习（RL）优化，导致RL微调的不稳定性，并消耗过多的内存。此外，由于LRM解码的自回归性质，推理延迟随着推理长度的增加而线性增加。这导致高推理成本和降低的用户体验，特别是在推理轨迹超过10,000个令牌时。在多代理系统中，及时生成计划和响应至关重要，这个问题变得更加突出。

2.3 在LRM时代提高推理效率的独特挑战

很难评估推理链中每个步骤对结果的实质影响，所以不知道怎么修剪
智能控制整体推理长度是一个开放问题
Transformer架构在长上下文时可能有二次复杂性
要为不同的任务分配不同的推理开销

随着LRMs在通过推理链解决复杂任务方面变得越来越有能力，实现效率变得更加困难和必要。与传统的LLM效率问题（如模型大小或推理延迟）不同，高效推理引入了自己的一套挑战。下面，我们概述了阻碍这一新兴领域进展的四个关键障碍。

量化推理效用：平衡行为：高效推理的一个基本挑战是难以评估推理链中每个步骤的效用。与分类或回归任务不同，其中损失可以直接计算，很难量化每个中间推理令牌对最终答案的贡献。这种缺乏粒度使得难以确定推理的哪些部分可以被压缩或修剪，以及如何平衡推理的简洁性与答案的正确性。结果，在不降低性能的情况下优化简洁性仍然是一个微妙的权衡。
控制思考长度：开放前沿：长度控制一直是以前LLMs的一个挑战，在推理的背景下变得更加关键。虽然可以在解码过程中强制执行令牌级约束，但它们通常过于僵化，忽视了推理的语义结构。能够“思考足够”，即不至于太浅而错过关键逻辑，也不至于太深而浪费计算，对于推理高效模型至关重要，但仍然在很大程度上未被解决。
超越Transformers：架构瓶颈：大多数现有的LRMs仍然依赖于Transformer架构，该架构相对于输入长度具有二次复杂性。这种设计在推理轨迹扩展到数千个令牌或更多时变得特别限制。开发能够推理长上下文而不会牺牲性能的新架构或高效近似值是一个关键且开放的方向。子二次注意力和线性序列建模是很有前途的，但对于复杂的推理任务仍然处于早期阶段。
跨任务泛化：一个尺寸不适合所有：不同的任务需要不同的推理深度。具体而言，算术问题可能从深入的逻辑轨迹中获益，而常识QA可能只需要短链。单一的推理策略或长度策略通常无法跨如此多样化的任务泛化。例如，如图4所示，最新的LRM Gemini 2.5 Pro花费数千个令牌将一个短的中文句子翻译成英文。确保在保持鲁棒性和适应性跨域的同时实现效率仍然是一个未解决且复杂的挑战。

这里有一个 QwQ 对于简单问题反复思考的例子

用户查询：制作一件长袍需要2卷蓝色纤维和一半数量的白色纤维。总共需要多少卷？
<思考> 好的，让我试着解决这个问题。 所以问题是关于计算制作一件长袍所需的总卷数。题目指出……（138个词） [重新思考，同样的逻辑，已经得到正确答案] 等等，让我确认一下。题目说……（87个词）
[检查其他解释] 但也许我应该检查一下是否还有其他解释。“一半数量”可能指的是其他东西？……（122个词） [检查其他单位] 等等，但也许我需要考虑一下“一半数量”是否以其他单位表示？……（54个词）
[再次思考，使用不同的符号] 嗯，这似乎很简单，但也许我应该再想想。让我再分析一下句子…… 分解如下：- 蓝色纤维：2卷。- 白色纤维：蓝色数量的一半。所以2的一半是1卷……（107个词）
[检查技巧] 或者，也许这里有什么技巧？……（138个词）
[检查误读] 或者，也许我误读了问题。让我再检查一下…… 嗯，也许我把问题复杂化了。我想那是对的。让我再想想另一种方法……所以是的，同样的结果。 因此，总共需要3卷。
</思考>
因此，最终答案是：3。希望这是正确的。

并不需要推理的任务也反复推理

推理过程中的高效方法

LRMs的计算开销主要源于冗长的中间推理轨迹。此外，LRMs在给定任务复杂性的情况下，难以在适当的计算预算内进行有效推理。为了缓解这一挑战，已经提出了各种方法来促进推理算法。这些方法包括限制推理预算、在不同的系统或模型之间分配资源，以及引入并行搜索策略，所有这些都旨在优化效率和准确性之间的权衡。需要注意的是，本节讨论的工作旨在支持其提出的推理方法，并且可能涉及使用现有技术（如监督微调（SFT））训练模型。

3.1 长度预算

在提示词中可以明确告诉模型计算资源限制，进一步 Chain-of-Draft 可以来强制约束模型每一步的推理长度

还可以在解码时强行打断模型思考，让模型自己评估难度再分配资源等

平衡准确性和效率的一种直接方法是在推理过程中明确预算计算资源。大多数LRMs在顺序范式下运行，其中模型反思并完善其先前生成的思想。在这种情况下，管理推理链的长度成为一种直观的预算分配手段。此外，另一种有效的测试时间扩展技术，即并行搜索，允许通过明确预算候选数量来提高效率，这将在第3.4节中讨论。
先前的工作已经证明了LLM能够遵守在提示中指定的长度约束。大多数现有工作利用这一性质，通过使用专门的提示直接控制生成长度。TALE使用零样本提示来估计最佳令牌预算，该预算约束模型生成。Sketch-of-Thought通过减少中间推理步骤的冗长性，增强了LLM推理效率，采用三种自适应范式：概念链、分块符号和专家词典。
除了对整个推理过程施加总体预算约束外，最近的工作还探索了对每个推理步骤施加预算限制。Wang等人引入了一种分层方法，通过在每个推理步骤开始时引入计划令牌，来增强语言模型推理。与冗长的中间步骤不同，Xu等人提出了Chain-of-Draft，鼓励语言模型生成简洁、最小的中间推理步骤，而不是传统CoT中的令牌密集解释。
除了将长度预算集成到提示中，Muennighoff等人提出了S1，使用一种预算强制策略，其中通过附加一个结束思考的令牌分隔符来强制结束思考过程，从而直接控制思考长度。类似地，Jiang等人提出了两种解码策略，包括ZeroThink和LessThink，以强制模型在不应用任何思考或应用简短思考过程的情况下开始其响应。然而，强制预算长度可能会导致不同程度的准确性下降。
为了全面研究推理长度和模型性能之间的关系，Lee等人进行了第一次关于各种压缩指令的系统性研究，揭示了响应长度和准确性之间的普遍权衡曲线。
除了鼓励简洁推理外，研究人员还寻求利用查询难度来动态预算生成长度。Wang等人提出了Difficulty-Adaptive Self-Consistency（DSC），它使用LLM本身评估查询的难度信息，以动态分配推理资源。类似地，Dynasor根据模型在多路径推理中的确定性分配计算，为困难查询分配更多资源。另一方面，Wang等人引入了Thought Switching Penalty（TSP），以阻止过早切换思想，这可能导致表面但冗长的推理轨迹。

3.2 系统切换

看起来也是将任务分类或分阶段，调用不同推理系统的方法

双重过程理论解释了人类推理通过两个系统进行：一个隐式、快速和直观的过程（系统1）和一个显式、较慢和深思熟虑的过程（系统2）。基于这一理论，一些研究探索了在系统1和系统2之间交替，仔细分配计算资源以优化推理质量和效率之间的平衡。
Dualformer通过一种随机推理轨迹训练策略集成了双重过程，该策略随机丢弃推理轨迹的某些部分。另一种方法是训练一个切换模块，以在两个系统之间切换。这些切换系统可以使用监督标签在定义良好的场景（如迷宫导航）中进行有效训练。
具体而言，Saha等人引入了System-1.x，它使用一个控制器来评估迷宫的难度。这允许模型根据用户定义的参数在解决子目标时在不同的系统之间交替，以更平滑地分配认知资源。类似地，Sun等人开发了一个切换适配器，根据任务复杂性因素（如视觉不确定性和不可见性）在视觉推理中动态地在系统1和系统2之间切换。
不同地，HaluSearch利用模型在特定实例上的性能来构建监督标签，基于这些标签，模型学会在实例级别和步骤级别下在MCTS（蒙特卡洛树搜索）中从系统1切换到系统2。
除了训练感知方法外，Dyna-Think使用了一个无需训练的动态思考机制，其中模型根据生成的一致性和思想过程的复杂性自主确定“慢”推理。

3.3 模型切换

一些投机解码和多模型路由方法，让不同尺寸的模型协作（但大型推理模型普遍还没有采用这些技术）

系统切换方法不明确涉及或需要多个不同模型（例如，一个大模型和一个小型模型）之间的协作。在不同的模型之间分配计算预算也是一种有效的策略，可以在可接受的性能损失下提高效率。虽然这一领域的大多数技术尚未应用于大型推理模型，但它们提供了改进效率的有希望的途径，同时最小化性能权衡。
推测性解码已经出现为一种关键策略，通过利用草稿模型或早期退出机制来加速推理，在验证之前提出多个候选令牌。BiLD利用一个小型、快速的模型进行初始预测，并利用一个较大、更准确的模型进行校正，通过回退和回滚策略有效地平衡速度和质量。
EAGLE通过将推测性采样从令牌级别转换为特征级别，增强了推理。EAGLE-2通过引入上下文感知的动态草稿树，进一步完善了推测性解码，这些树根据置信度分数调整令牌接受率。
与在大型和小型模型之间分配计算不同，MEDUSA通过引入额外的解码头，这些头同时预测多个令牌，来加速大型语言模型推理。通过集成树形注意力机制，它同时生成和验证几个候选延续，从而减少顺序解码步骤。
LayerSkip通过结合层丢弃和早期退出损失，加速了推理。这允许在较浅的层上进行预测，同时实施自我推测性解码以进行验证。
另一系列工作引入了一个路由模块，用于根据其难度和复杂性为特定提示选择LLM。例如，Lu等人提出了Zooter，一种奖励引导的路由方法，它利用从训练查询中提取的奖励来训练一个专门的路由函数。该函数将每个查询准确地定向到具有最相关专业知识的LLM。
Ong等人引入了RouteLLM，它学会动态地在稳健和较弱的语言模型之间路由查询，以实现性能和成本效益之间的最佳平衡。类似地，MixLLM通过使用标签知识增强查询嵌入，并利用轻量级预测器评估每个模型的质量和成本，同时利用元决策者选择最佳LLM候选者，来增强推理。

3.4 并行搜索

除了 o1/R1 这种顺序的回溯修改方案，也有一些研究在优化并行搜索的效率，比如投票，Best-of-N，以及各种剪枝

最近的大型推理模型主要关注于增强顺序修改方法（如o1或R1）的效率。另一系列研究关注于增强并行搜索的效率，这是另一种常见的测试时间扩展范式。典型的方法包括多数票、自我一致性和Best-of-N，这些方法使用一个验证器（如投票或奖励模型）从由策略模型并行生成的多个候选者中选择。
为了提高并行搜索的效率，而不是等待所有生成完成，SBoN评估了部分响应，并停止了那些不太可能产生高质量完成的响应，实现了可比的性能，同时大大减少了计算资源需求。
Qiu等人提出了TreeBoN，它结合了推测性树搜索和Best-of-N采样。通过在分层树结构中生成候选响应，TreeBoN扩展了高奖励部分响应，并使用加权隐式奖励及早修剪低质量响应。
一系列工作提出了用内部奖励模型替换外部奖励模型，这通常与策略模型大小相同，进一步减少了计算开销。STBoN通过识别样本变得不同的最早估计时间，并使用缓冲区窗口和隐藏状态一致性及早截断次优候选者。
Huang等人通过将自我一致性派生的置信度蒸馏到模型中，启用了如早期停止等策略，消除了对外部奖励模型的需求。
一些工作结合了顺序修订和并行搜索，以增强效率。Sui等人引入了一个具有重启或完善等策略的元推理器，使用上下文多臂老虎机公式。Li等人提出了一种递归方法来修订并行样本，使模型性能在测试时间与训练感知方法相匹配。

3.5 总结和展望

在本节中，我们概述了推理过程中高效推理的关键策略，详细阐述了四个主要类别。长度预算方法通过在每个推理步骤或整个过程中强制执行令牌预算来限制冗长性。系统切换方法根据任务复杂性动态地在快速、直观（系统1）和慢速、深思熟虑（系统2）推理之间切换。另一方面，模型切换方法通过将查询定向到不同的模型或候选输出，使用轻量级预测器或控制器来平衡性能和成本，来分配推理资源。并行搜索策略同时生成多个候选输出，并使用早期终止或修剪来减少延迟。
尽管长度预算方法有效，但研究在有效修剪推理轨迹方面仍然有限，特别是精确地消除冗余元素，因为对推理链有效性的评估不足。此外，将固有模型特征集成到长度控制中尚未得到充分探索。例如，当模型感知到问题是“微不足道”时，可以应用更严格的预算。类似地，这种模型感知的自适应性也可以应用于推测性解码，其中只有困难问题留给更大、更强的模型。
除了系统切换和模型切换外，模型合并可能是一个有前途的方向，以平衡任务难度和推理效率。最后，通过并行搜索平衡搜索深度和搜索宽度，提供了一种有前途的方法，可以在增加内存消耗的同时显著减少推理延迟。

使用SFT的高效推理

监督微调（SFT）是一种直接的方法，可以帮助模型学习如何遵循用户的指令。在本节中，我们将回顾现有的通过SFT使模型实现高效推理的方法。如图6所示，这些方法主要分为两大类，包括使用压缩推理链进行训练和使用潜在空间中的令牌进行训练。

4.1 推理链压缩

各种改造现有数据集，生成更短而准确的推理路径

可以采样筛选，让模型后处理压缩，用困惑度识别关键步骤等方案

在这一领域，研究人员首先构建具有简洁推理路径的目标数据集，或者压缩现有的推理链以去除冗余信息，然后使用监督微调训练模型，使其内部化简洁的推理模式。
为了生成简洁的推理路径，Token-Budget-Aware LLM Reasoning首先通过使用包含优化令牌预算的CoT提示来生成目标输出，然后使用SFT训练模型以产生符合令牌预算的答案。
在另一种构建方式中，Munkhbat等人通过最佳N采样和少量条件来构建简洁的推理路径。然后，他们应用SFT来将长度减少路径蒸馏到模型中。
以更激进的方式，Yu等人微调模型，以省略对足够自信的样本的中间生成步骤。
为了消除推理链中的冗余信息，C3ot使用GPT-4作为压缩器，在整个推理过程中保留关键信息。然后，模型被微调以学习长CoT和短CoT之间的关系。
而不是依赖外部GPT模型进行过滤，LMskip专注于跳过中间推理步骤。为了诱导步骤跳过行为，设计了一个受控的训练环境，指示模型在步骤约束下产生推理序列。然后，选择较短但准确的推理路径，并将其与完整的推理路径集成。这个增强的数据集用于微调一个新的模型，该模型具有增强的步骤跳过能力。
在另一种选择重要步骤的方式中，SPIRIT-FT使用困惑度作为指标，如果删除一个步骤会导致困惑度显著增加，则该步骤被视为关键步骤。
除了步骤跳过，TokenSkip分析了CoT输出中的令牌重要性，有选择地省略不太重要的令牌，以实现对CoT序列的控制压缩。
而不是局限于推理链的压缩格式，CoT-Valve微调一个模型来生成长CoT和短CoT。他们的方法涉及在参数空间中识别一个特定的任务向量，该向量控制生成的CoT的长度。显著地，这个向量允许进行外推，使模型能够生成比训练期间遇到的CoT更长或更短的CoT。

4.2 潜在空间SFT

不显式地生成推理过程，直接得出答案，一般被称为隐性推理。大模型并不直接有隐性推理的能力，有一篇论文就叫 LLMs Do Not Think Step-by-step In Implicit Reasoning。所以以下做法大多是慢慢调校模型从显性推理到混合推理或者隐性推理。

另一条通过SFT实现高效推理的途径是潜在空间推理，其中明确的CoT步骤逐渐被连续的隐藏表示所取代。
先前的工作将潜在推理定义为Transformer中的内部计算。在这个上下文中，两跳推理的中间变量可以从隐藏状态中恢复，而“反向修补”被提出以干预这个过程。类似地，Implicit CoT通过直接从内部表示预测答案，而不是生成完整的令牌序列，来消除明确的中间步骤。
此外，对CoT不忠实的研究已经揭示，即使生成了CoT，模型也可能在内部遵循不同的潜在推理过程。受这些见解的启发，Coconut（连续思想链）使用模型的最后一个隐藏状态作为推理的连续表示，而不是逐步生成令牌。这个隐藏状态被反馈到模型中，作为后续推理步骤的输入。这种方法基于课程学习，其中模型逐渐从生成明确的推理步骤过渡到完全在潜在空间中操作，从而实现更高效的推理，并减少与CoT相关的令牌开销。
类似地，CCoT（压缩思想链）微调模型以产生推理链的压缩表示，而不是完整的序列。通过用较少的令牌逼近完整的推理链，CCoT减少了计算成本并提高了吞吐量，同时允许在推理期间动态调整性能-效率权衡。
基于这一点，CODI（通过自我蒸馏的连续思想链）通过集成自我蒸馏框架，改进了课程学习方法。受先前关于上下文学习和广义提示压缩的工作的启发，CODI专注于在所有LLM层中对齐特定令牌的隐藏激活，这些令牌在使用明确CoT的教师模型和使用隐式CoT的学生模型之间进行对齐。这种对齐有效地将明确的推理注入到隐式推理过程中，从而提高了性能，并解决了遗忘问题，使其成为更强大的推理任务解决方案。
Token Assorted通过混合潜在和文本令牌，进一步改进了推理效率。通过使用来自VQ-VAE的潜在离散令牌，它抽象了初始推理步骤，减少了轨迹长度，同时保留了基本信息。这种方法导致推理轨迹长度减少了17%，并在逻辑和数学任务上提高了性能。
SoftCoT采用不同的方法进行连续空间推理，使用一个助手模型为LLM生成“软思想令牌”。这些令牌被投影到LLM的表示空间中，使模型能够进行高效推理，而无需进行完整的模型微调，从而提高了效率，同时保留了预训练知识。
此外，LightThinker通过动态地将中间步骤压缩为简洁的潜在表示，增强了推理。这减少了内存使用和计算开销，同时保持了关键的推理信息。类似地，Heima利用隐藏的潜在表示来减少文本和多模态任务中的冗长性。Heima编码器将中间步骤压缩为一个单一的令牌，而Heima解码器从这些令牌中重建推理过程，显著降低了令牌使用并提高了效率。
这些方法展示了利用潜在空间推理来增强LLM效率的增长趋势，每个方法都提供了独特的策略来减少计算开销，同时保持或提高推理能力，为更可扩展和有效的模型铺平了道路，这些模型能够处理复杂的任务。

4.3 总结和展望

在本节中，我们回顾了通过SFT增强LLM中高效推理的方法。关键方法包括推理链压缩，其中模型通过技术如令牌预算控制、自我训练和动态令牌跳过，减少CoT序列的长度和复杂性。这些方法优化了推理，而不会失去准确性，特别是对于具有更简单或更可并行化结构的 tasks。
另一种主要方法是潜在空间推理，其中明确的CoT步骤被替换为隐藏状态中的连续表示。技术如Coconut、CCoT和CODI使用潜在表示来提高效率并减少令牌开销。创新如Token Assorted、SoftCoT和Heima进一步增强了推理，通过混合潜在和文本令牌，减少了内存使用和计算成本。
随着LLM的发展，未来对高效推理的研究可能会集中在完善潜在空间方法和开发更灵活、可扩展的模型上。一个有前途的方向是集成明确的和隐式的推理过程，使模型能够根据任务复杂性动态地在不同的推理策略之间切换。此外，探索多模态潜在推理，其中模型利用文本和视觉数据，可以增强其推理能力。研究自适应课程学习策略将进一步提高模型的灵活性，使其能够处理更复杂的推理任务。最后，解决CoT不忠实问题并改善明确推理路径与内部潜在表示之间的对齐，对于确保模型在各种任务中的可靠性至关重要。

使用强化学习的高效推理

DeepSeek-R1已经证明，强化学习（RL）可以有效地引导语言模型发展深度推理能力，这标志着在增强模型认知能力方面取得了重大进展。这一突破自然表明，RL框架可能是一种更直接和直观的方法来提高推理效率。受此潜力的启发，一些研究努力已经出现，探索强化学习和推理效率的交叉点，重点是开发更复杂的基于RL的训练策略，以减少或控制推理轨迹的令牌使用，同时保持准确性。根据对推理长度的建模方法，我们将当前使用RL进行高效推理的方法分为两个不同的类别，如图7所示。

5.1 带有长度奖励的高效强化学习

大部分做法是通过惩罚，约束长度的超预期增长

引入长度奖励作为规则奖励的一种补充，为效率提供了一种自然的方法。如表2所示，一些研究已经探索了这种方法的有效性。一些研究建立了生成令牌预算，要么通过制定任务难度和生成长度之间的相关性，要么在提示中指定。
DAST引入了Difficulty-Adaptive Slow-Thinking，使模型能够根据问题复杂性自动调节CoT长度。他们首先定义了一个Token Length Budget（TLB）指标，通过其成功率量化问题的难度，然后利用长度感知奖励塑造和长度偏好优化来实现DAST。
LCPO通过在提示中引入目标长度指令来控制长度预算，例如“思考n个令牌”，并设计了一个目标感知长度奖励，以惩罚长度违规行为。
其他方法将长度奖励归一化为基本预算。O1-Pruner设计了一种高效的微调方法，首先通过从其参考模型中进行预采样来估计LLM的基本性能。与O1-Pruner不同，Arora和Zanette引入了一种在每个提示组中归一化的长度惩罚。该策略鼓励模型以最少的令牌产生正确的响应，同时确保正确的响应总是比不正确的响应更受偏好。
Kimi 1.5技术报告讨论了过度思考现象的观察结果，并引入了长度奖励来限制令牌长度的快速增长。他们定义的长度奖励是一个归一化的长度因子，与不同生成解决方案的最大和最小长度进行比较。
Yeo等人分析了RL设计选择对推理的影响，揭示了极其长的CoT推理（接近上下文限制）实际上会降低准确性。他们提出的余弦奖励函数提供了直观的指导——逐渐增加对有意义推理步骤的奖励，同时惩罚过度长度。他们还确定了“长度破解”，即模型通过重复而不是真正的问题解决来人为地扩展对困难问题的推理，强调了将基于长度的奖励与实际推理质量相一致的挑战。

5.2 不带长度奖励的高效强化学习

显式奖励之外的其他一些和长度相关的 trick，包括对强化学习框架的创新重新表述、优化方法，这些方法平衡了对简洁和详细CoT解决方案的偏好，以及对GRPO归纳偏置的识别。

也有各种方法解决这个挑战，而无需依赖明确的长度奖励。这些包括对强化学习框架的创新重新表述、优化方法，这些方法平衡了对简洁和详细CoT解决方案的偏好，以及对GRPO归纳偏置的识别。
MRT将测试时间优化问题表述为一个元强化学习问题。它将生成划分为多个阶段，要求模型在每个阶段后估计答案。这种方法创造了一种自然的权衡：模型因正确的早期预测（利用）和在不确定时继续完善其推理（探索）而获得奖励，从而有效地学习在不同的计算预算下平衡速度和准确性。
平衡偏好的方法包括IBPO，它通过将问题表述为效用最大化而不是直接控制响应长度来接近预算意识。他们的关键见解是将响应分类为标准推理组和扩展推理组，并优化这些组之间的分布。
Chen等人使用启发式方法（如First-Correct Solutions（FCS）和Greedy Diverse Solutions（GDS））生成偏好数据，用于离线策略优化，使用偏好优化方法（如DPO、RPO和SimPO）来控制推理路径的长度。
最后，Liu等人研究了从RL算法的归纳偏置的角度来看推理轨迹长度的增加。他们声称，在GRPO优势中对策略损失进行令牌级平均和标准偏差归一化，会引入对更长推理轨迹的归纳偏置。为了解决这个问题，他们引入了Dr.GRPO来去除这种偏置，并实现更高效的RL扩展。

5.3 总结和展望

现有的研究通常使用强化学习技术来优化推理深度和令牌效率之间的权衡，共同关注于奖励工程，以惩罚过度长度，同时保持准确性。大多数方法将挑战表述为一个约束优化问题，设计特殊的奖励函数来平衡准确性和长度惩罚，尽管它们在如何量化和执行这些约束方面有所不同，范围从明确的预算目标到自适应的难度调整。
尽管取得了重大进展，但对为什么强化学习在序列长度方面扩展效率低下的见解较少，使得原则性解决方案难以捉摸。此外，现有的工作主要集中在可验证的任务上，如推理和数学。一个有前途的方向是使用奖励模型或多模态任务的一般任务的RL效率。
此外，如Qu等人最初探索的那样，开发RL方法，其中更多的令牌消耗导致更好的性能，代表了一种令人兴奋的方向。目前的研究主要集中在o1/R1类模型的长CoT推理上，而对替代推理结构（如并行搜索、思维树或思维图）的高效RL方法的探索仍然相对较少。

预训练期间的高效推理

在本节中，我们将研究旨在加速推理效率的最新预训练方法。这些方法旨在提高计算效率，同时保持性能。如图8所示，我们将讨论三类工作，包括在潜在空间中的预训练、使用具有亚二次注意力的线性模型的预训练，以及通过线性化方法将Transformer模型重新表述为线性模型的预训练。

6.1 在潜在空间中的预训练

这一分支比较火的是 LCMs，以抽象概念而非令牌作为主要处理单位

在潜在空间中的预训练最近受到了关注，作为提高LRMs推理效率的一种手段。与依赖传统基于令牌的方法不同，这些方法探索了连续表示，以增强模型理解的深度和效率。已经出现了几种方法，它们在处理潜在空间和预训练策略方面有所不同。
Byte Latent Transformer（BLT）处理原始字节，使用动态大小的块而不是固定令牌，从而减少计算开销并提高对噪声和多语言输入的鲁棒性。通过基于熵而不是依赖预定义的令牌化来分组字节，BLT实现了更好的可扩展性和长尾泛化。
大型概念模型（LCMs）将这一范式扩展到更高的语义级别。在LCMs中，抽象概念（通常对应于完整的句子或语音话语）作为主要处理单位。它们利用预先存在的句子嵌入空间和自回归句子预测来实现与模态和语言无关的性能。
CoCoMix（连续概念混合）将离散令牌预测与从稀疏自编码器（SAEs）派生的连续概念向量相结合。通过在训练期间将这些连续表示交织到隐藏状态中，CoCoMix提高了样本效率，并丰富了模型对更高级别抽象的容量，这对于任务如总结和逻辑推理是有益的。
此外，还引入了潜在思想向量（LTMs），以通过交叉注意力机制概率性地指导令牌生成。LTMs从潜在先验中采样，并提供了一个灵活的框架，允许调整推理步骤和潜在向量维度以优化性能。与传统的自回归模型相比，这种方法提高了样本效率和可扩展性。
尽管取得了这些进展，但仍存在挑战。对隐式推理捷径的依赖可能会阻碍真正的逐步推理，特别是在复杂的多步任务中。未来研究的一个重点可能是完善这些在潜在空间中的预训练方法，以确保在更广泛的推理任务中的一致性和准确性。

6.2 亚二次注意力

可以归纳为一种模型结构上的改进，在 LongCoT 的推理范式下，会有比以往更优的模型结构

当前的CoT推理过程依赖于长上下文推理，其中复杂任务被分解为推理步骤。这导致生成时间更长和显著的计算开销。提高CoT推理效率的一个潜在方法是使用亚二次注意力机制来替代Transformer中的标准自注意力，从而减少处理序列的计算成本。
在亚二次注意力机制中，线性序列建模技术（如线性注意力、状态空间模型（SSMs）和线性RNNs）作为传统自注意力的有效替代方案出现。稀疏注意力也提供了一个可行的解决方案，通过选择性地关注一组令牌来进一步提高计算效率。
6.2.1 线性序列建模
线性注意力方法利用“右乘核技巧”，其中初始的键值乘积计算绕过了查询键交互通常引起的二次成本。例如，原始线性注意力用基于核的近似替换了传统的Softmax注意力，从而实现了线性计算复杂度。已经开发了各种改进来进一步提高效率。TransNormerLLM引入了Lightning Attention，该方法优化了I/O操作以加速处理，而Lightning Attention-2通过细化块计算来在自回归设置中实现更好的性能。
此外，还研究了序列并行性，以扩展线性注意力模型在广泛集群上处理长序列的能力。LASP 是第一个将序列并行性集成到这些方法中的，其继任者LASP-2 进一步完善了该方法，通过重新组织计算和通信工作流。此外，Minimax-01将Lightning Attention和LASP系列策略适应于具有4560亿参数的大规模MoE语言模型，突出了其在商业部署中的潜力。
线性注意力机制的其他创新包括RetNe，它引入了一个保留机制，支持并行训练而不会牺牲线性时间推理。Gated Linear Attention（GLA）利用了一个与数据无关的门控方案来增强序列建模能力和硬件效率，而Gated Slot Attention（GSA）利用了一个受限内存插槽控制策略来改善具有扩展上下文的任务中的召回率。
此外，方法如Test-Time Training（TTT）、Titans和Gated-DeltaNet提出了更新规则，允许模型在推理期间动态适应。尽管它们具有不同的门控和更新策略，但这些方法通常依赖于固定大小的内存状态。相比之下，MoM（Du等人，2025）通过使用“稀疏内存”扩展了RNN内存状态，该内存具有多个由路由器模块管理的内存单元。
状态空间模型（SSMs）代表了一种有前途的高效序列建模方法。最新的变体Mamba2集成了一个类似于线性注意力的机制，以增强硬件效率，利用状态空间对偶性来支持并行计算，同时保持递归推理能力。
除了SSMs，基于线性RNN的方法、HGRN及其继任者HGRN2也证明了在提高序列建模效率方面的有效性。
6.2.2 稀疏注意力
稀疏注意力提供了另一种有效的方法来管理长序列并减轻自注意力机制的二次复杂性，同时仍然保持模型性能。滑动窗口注意力限制了查询到预定义的局部上下文。方法如StreamingLLM、MoA 和DuoAttention 集成了局部注意力和注意力槽，以促进高效的长序列处理。Longformer 交替使用局部注意力和全局令牌来改善上下文理解。NSA采用了动态分层稀疏策略，结合了粗粒度令牌压缩和细粒度令牌选择，确保了全局上下文保留和局部准确性。MoBA将上下文划分为块，并使用动态门控机制将查询令牌路由到最相关的KV块。

6.3 线性化

可以改结构组件重新训，也可以蒸馏或逐渐替换组件

将大型语言模型线性化，将预训练的标准模型转换为线性递归结构，以增强部署效率。Liger通过调整关键矩阵权重将预训练的LLM转换为门控线性递归模型，而无需额外的参数。LoLCATs通过用训练的线性近似替换Softmax注意力，并使用LoRA增强模型质量，推进了LLM线性化。Llamba通过MOHAWK将Llama-3.x模型蒸馏为Mamba架构，实现了高推理吞吐量和效率，使用最小量的训练数据。LightTransfer通过用流式注意力替换某些注意力层，减少了长上下文LLMs的KV缓存内存需求。MOHAWK通过一个结构化的三阶段过程，促进了将预训练的Transformers蒸馏为亚二次模型（如SSMs）。Multimodal Mamba通过渐进式蒸馏构建了线性复杂度的多模态状态空间模型，从现有的MLLMs中降低计算成本。

6.4 使用亚二次注意力的高效推理

最近，一些研究探索了使用亚二次注意力模型的高效推理解决方案，旨在平衡计算效率和强大的推理能力。这些工作调查了技术如模型蒸馏、架构修改和算法优化，以在推理任务中提高性能，同时减少计算开销。
Think Slow Fast 研究了在固定计算预算下的高效推理的亚二次模型，证明了从Transformers蒸馏Mamba模型能够实现更快的多路径CoT生成，并在MATH和GSM8K上提高了性能。他们的发现强调了架构创新在资源受限环境中增强推理效率的潜力。
CRQs 研究了Transformers、RNNs和CoT增强模型在组合推理问题（CRQs）上的表达能力，揭示了固有的权衡：Transformers需要对数深度，RNNs依赖于对数嵌入维度，而CoT增强的Transformers随着线性令牌数量而扩展。这项工作为比较多步骤推理任务中的模型能力提供了一个正式框架。
Cosmos-Reason1 提出了使用混合Mamba-MLP-Transformer骨干架构来实现高效的物理AI推理（包括物理常识、具身推理和逻辑推理）。混合架构被证明是高效且表现良好的，能够处理复杂的推理任务。
这些研究展示了亚二次注意力模型在高效推理中的潜力，并提供了关于如何在资源受限的环境中提高推理性能的见解。通过结合架构修改、模型蒸馏和算法优化等技术，这些模型有望在各种推理任务中实现更好的性能和效率。

6.5 总结与展望

在本节中，我们探讨了在预训练阶段提高推理效率的最新方法。这些方法旨在通过优化计算效率来增强模型性能。我们讨论了以下几种方法：
潜在空间预训练：通过在潜在空间中进行预训练，而不是依赖传统的基于令牌的方法，来提高推理效率。这些方法利用连续表示来增强模型对复杂任务的理解。
亚二次注意力：使用亚二次注意力机制，如线性注意力、状态空间模型和线性RNN，来替代Transformer中的标准自注意力，从而减少处理长序列的计算成本。
线性化：将预训练的标准模型转换为线性递归结构，以提高部署效率。这包括将Transformer模型转换为具有线性复杂度的模型，如Mamba或RWKV。
使用亚二次注意力的高效推理：研究如何利用亚二次注意力模型进行高效推理，包括模型蒸馏、架构修改和算法优化等技术。

未来方向

高效的多模态和视频推理
- 多模态融合：将高效推理扩展到多模态领域，结合文本、图像、音频等多源信息进行推理。
- 视频推理：研究如何在视频数据上进行高效推理，包括视频理解、视频问答等任务。
高效的测试时间扩展和无限思考
- 测试时间扩展：研究如何在测试阶段对模型进行动态调整，以适应不同的计算资源和任务需求。
- 无限思考：探索如何实现模型的持续思考和推理能力，使其能够处理复杂的、长时间的推理任务。
高效和可信赖的推理
- 可信赖推理：研究如何提高推理结果的可靠性和可信度，包括对抗攻击、鲁棒性分析等。
- 伦理和公平性：关注推理模型在实际应用中的伦理问题，如公平性、偏见等。
高效推理的应用
- 智能助手：将高效推理应用于智能助手、聊天机器人等场景，提高其理解和回答问题的能力。
- 教育和培训：利用高效推理技术开发教育和培训工具，帮助学生和专业人士提高推理和解决问题的能力。
评估和基准
- 评估方法：研究新的评估方法和指标，以更全面地衡量模型的推理能力和效率。
- 基准数据集：构建新的基准数据集，涵盖各种类型的推理任务和难度级别，以促进模型的比较和改进。

如何学习AI大模型？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

优快云粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传优快云，朋友们如果需要可以扫描下方二维码&点击下方优快云官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉优快云大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。（全套教程文末领取哈）
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。
在这里插入图片描述

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（全套教程文末领取哈）

在这里插入图片描述

👉4.大模型实战项目&项目源码👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战项目来学习。（全套教程文末领取哈）
在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。（全套教程文末领取哈）
在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。（全套教程文末领取哈）
在这里插入图片描述

为什么分享这些资料?

只要你是真心想学AI大模型，我这份资料就可以无偿分享给你学习，我国在这方面的相关人才比较紧缺，大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述