本文深入探究了自2023年GPT - 4发布以来,大型语言模型(LLM)领域的发展趋向及其技术演进路径。
一、始于2023年的GPT - 4
1.1 2023年基线:GPT - 4范式
2023年初,LLM领域的发展遵循着一条清晰且强劲的轨迹,彼时规模决定能力,当年的热门术语便是“Scaling Laws”,即更大的参数、更多的计算量以及更庞大的数据规模。
这一理念的巅峰之作便是OpenAI的GPT - 4。作为2023年最为先进的AI,GPT - 4堪称大规模模型的典范。其基础架构依旧是Transformer,不过通过增加参数量,展现出了出色的性能。尤其在多种专业和学术基准测试中,它展现出了与人类相当的水平,例如在模拟律师资格考试中,它取得了排名前10%的成绩,而其前身GPT - 3.5的得分则位于后10%。
相较于GPT - 3.5,GPT - 4的关键进步体现在多个方面。首先,其上下文窗口长度得到了极大扩展,提供了8K和32K两种规格的上下文长度,远超前代的4K和2K,这类似于当年软盘时代,内存从1K提升到1M的变革。这使得模型能够处理更长、更复杂的任务,OpenAI也宣称GPT - 4在可靠性、创造力以及处理细微指令的能力上均优于GPT - 3.5。

GPT - 4的成功,为整个领域指明了一条通过持续扩大模型规模和数据量来提升智能水平的路径。这条演进路径的逻辑为:
1. 需要对架构进行改进:密集型Transformer模型的计算和内存开销是核心痛点。为了处理更复杂的现实世界问题,模型需要更大的上下文窗口来容纳所有相关信息,并需要更复杂的内部处理流程。然而,O(L^2)的复杂度和巨大的KV缓存使得这一需求在经济和技术层面都难以实现。因此,架构上的效率创新成为首要任务。混合专家(MoE)架构通过稀疏激活来降低计算量,而线性注意力等机制则直接突破了二次方复杂度的瓶颈。这些将在第二部分详细分析的创新,为后续发展铺平了道路。
2. 需要提升可解释性,找到新的增长范式:一旦模型的基础架构在效率上得到优化,实验室便有条件去探索计算成本更高的推理过程。在推理时进行“thinking”,即让模型在给出最终答案前进行一系列内部的、复杂的思考步骤,只有在底层架构足够高效的前提下才具有经济可行性,否则“thinking”一次耗时久且成本高,实用性欠佳。若没有MoE或线性注意力等技术降低基础成本,为每一次查询增加数倍乃至数十倍的“thinking”计算量是难以想象的。
3. 需要具备商业价值,切实可用:一个能够进行多步推理并形成复杂计划的模型固然强大,但一个能够利用工具去影响其他系统、付诸实践的模型,才具有真正的变革性。因此,Agent能力的开发,成为应用推理能力的自然延伸。它是这条因果链的第三个环节,也是最高阶的体现。
二、2024年至今,对效率的迫切需求
2.1 稀疏化的兴起:混合专家(MoE)架构
混合专家(Mixture - of - Experts, MoE)架构是这一时期应对效率挑战的核心策略之一,其基本思想是用大量小型的专家网络替换Transformer中密集的、计算量巨大的前馈网络(FFN)层。
对于输入序列中的每个token,一个门控网络(gating network)或称为路由器(router)的机制会动态地选择一小部分专家来处理它。按照这种模式,模型的总参数量可以急剧增加(例如R1直接达到671B的总参数量),但每次前向传播(即推理)时实际激活的参数量和计算量(FLOPs)却仅占一小部分(例如R1实际上只激活37B),从而实现了经济的训练和高效的推理。
2.1.1 DeepSeek的开创性MoE推进
DeepSeek在推广和开源MoE架构方面发挥了重要作用,从V2开始,到R1等系列模型清晰地展示了MoE架构的演进和威力,如今基本都是MoE的模型。
- DeepSeek - V2:该模型引入了名为
DeepSeekMoE的稀疏MoE架构。在236B(2360亿)参数的版本中,每个token仅激活21B(210亿)参数。这展示了超过10:1的总参数与激活参数之比,是MoE理念的经典体现,这种设计使得模型能够在保持巨大知识容量的同时,显著降低推理成本。 - DeepSeek - V2 - Lite:为了便于学术研究和更广泛的部署,DeepSeek推出了16B参数的轻量版MoE模型,每个token仅激活2.4B参数。其技术报告详细说明了实现方式:除第一层外,所有FFN层都被MoE层取代。每个MoE层包含2个所有token共享的专家(shared experts)和64个路由选择的专家(routed experts),每次会为每个token激活6个路由专家。这种细粒度的设计(共享专家处理通用模式,路由专家处理特定子问题)展示了MoE架构的灵活性和复杂性。
- DeepSeek R1:作为一款专为推理设计的模型,R1同样基于MoE架构。它拥有惊人的671B总参数,而每个token的激活参数量为37B,这进一步证明了MoE架构是实现数千亿级别参数模型的可行路径,尤其是在HPC(高性能计算)协同设计的支持下。
2.1.2 Qwen的混合产品组合策略
阿里的Qwen团队采取了独特的市场策略,Qwen3系列同时提供了密集模型(最高32B)和MoE模型(如30B - A3B,235B - A22B)。这一策略是对不同市场需求的针对性应对,密集模型通常具有更可预测的性能和更简单的微调流程,适合寻求稳定性的企业用户。MoE模型则代表了技术前沿,以极致的规模和性能吸引高端用户和研究者。这种双轨并行的产品线,让Qwen能够在不同的细分市场中保持竞争力,尤其是二次开发的衍生模型,Qwen在HF上一直是排名第一的衍生模型,大量的科研和二次开发都基于Qwen2.5,基于LLaMA的则越来越少。
2.1.3 Minimax - m1的混合MoE
最近6月刚发布且开源的Minimax的m1模型也采用了混合MoE架构,拥有32个专家。模型总参数量为456B,每个token激活45.9B参数。这再次印证了约10:1的总参数与激活参数之比已成为大型MoE模型的行业基准,主要也带来了超长上下文方面的提升,整体性能可查看表格,表现颇为出色。

2.2 注意力机制革命,超越二次方缩放
如果说MoE解决了FFN层的计算开销问题,那么新的注意力机制则旨在攻克Transformer架构的另一个核心瓶颈——自注意力机制(self - attention)与序列长度L的二次方计算复杂度O(L^2),这一瓶颈是限制模型处理超长上下文(如百万级token)的主要障碍。
2.2.1 DeepSeek的多头潜在注意力(MLA)
- 机制:DeepSeek的Multi - Head Latent Attention (MLA) 是一种创新的注意力机制,它通过将长序列的Key和Value向量(即KV缓存)压缩成一个单一的、低秩的潜在向量(latent vector)来解决KV缓存瓶颈。这极大地减少了存储历史信息所需的内存,使它在支持128K上下文长度的同时,KV缓存相较于前代模型减少了93.3%。
- 在V3中的演进:在DeepSeek - V3中,MLA得到了进一步优化,引入了更复杂的动态管理策略。例如,动态低秩投影(Dynamic Low - Rank Projection)可以根据序列长度自适应地调整压缩强度,短序列少压缩以保留保真度,超长序列(如32K - 128K)则深度压缩以控制内存增长。分层自适应缓存(Layer - Wise Adaptive Cache)会在模型的更深层修剪掉较早的KV条目,进一步优化了在极端长上下文场景下的内存使用。这些演进表明,对注意力机制的优化已进入精细化、动态化阶段。
2.2.2 Minimax - m1的闪电注意力(Lightning Attention)
- 机制:Minimax - m1采用了更为激进的混合注意力方案。大部分Transformer层使用的是一种名为闪电注意力(Lightning Attention)的线性复杂度(O(L))机制。然而,为了防止模型表达能力和性能的过度损失,架构中每隔七个使用线性注意力的Transformer块,就会插入一个使用标准softmax注意力的完整Transformer块。
- 影响:这种设计在处理长序列时极大地降低了计算负荷。在生成长度为100K个token时,m1消耗的FLOPs仅为DeepSeek R1的25%,这直接支持高达100万token的超长上下文长度,这是一种在效率和性能之间进行权衡的设计。
2.2.3 Qwen2.5分组查询注意力(GQA)
Qwen2.5在技术报告中,明确提到架构中集成了分组查询注意力(Grouped Query Attention, GQA),以实现更高效的KV缓存利用。虽然GQA不像MLA或闪电注意力那样具有革命性,但它已成为现代LLM中一项标准的、不可或缺的优化技术,用于在性能和效率之间取得平衡。
2.2.4 效率作为战略护城河
对效率架构的选择,已不仅仅是技术层面的决策,更是一种核心商业战略,深刻地影响着各个AI实验室的竞争地位。开源社区和闭源巨头在此展现出截然不同的策略。
一方面,以DeepSeek和Qwen为代表的开源力量,选择将架构创新公之于众。他们详细公布了MLA、MoE的具体实现方式以及稀疏注意力框架的技术细节。其核心价值主张是:以远低于专有模型的成本,提供接近业界SOTA的性能,并附加架构透明度,方便开发者进行定制和研究。这一战略直接冲击了AI技术的高成本壁垒,通过开源和性价比来占领市场。
另一方面,以OpenAI和Anthropic为代表的闭源领导者,同样在效率上投入巨资(例如,GPT - 4o的API价格比GPT - 4 Turbo便宜50% ),但他们选择将具体的实现细节作为商业机密。他们将效率提升所节省下来的计算资源,再投资到计算成本更高昂的专有功能上,例如扩展思考(extended thinking)或智能体工具使用(agentic tool use)。对他们而言,护城河并非效率本身,而是由效率所解锁的、难以复制的独特能力。
这种战略分化创造了一个动态的竞争格局,开源模型持续拉低标准推理服务的价格,迫使闭源领导者必须不断创新,推出新的、能证明高昂定价和专有性质的尖端功能。因此,对效率的追求成为了整个领域发展的动力,它既推动了基础能力的“商品化”,也催生了新功能前沿的不断拓展。
三、2025年来,推理Thinking走向台前
3.1 CoT的逐渐拉长
这个新范式将计算开销的重心从预训练阶段部分转移到了推理阶段。其核心理念是,模型在生成最终答案之前,投入额外的计算资源来生成一段内部的思考链(CoT,chain of thought),从而在需要逻辑、数学和规划的复杂任务上实现性能的大幅提升。这标志着模型从静态的知识检索向动态的问题解决能力的转变。

3.1.1 OpenAI的o系列(o1, o3, o4 - mini)
- 机制:o系列模型是这一范式的开创者,它们在回答问题前会明确地花费时间进行“Thinking”。这个过程会生成一个长的、对用户隐藏的思考链,这段内部独白对于模型推导出正确答案至关重要。OpenAI以安全和竞争优势为由,禁止用户探查这个思考链。
- 影响:这种方法在重推理的基准测试上带来了显著的性能提升。例如,o1解决了83%的AIME(美国数学邀请赛)问题,而GPT - 4o仅解决了13%。这有力地证明了,对于特定类型的问题,推理时计算(test - time compute)比预训练计算能带来更大的价值。o系列还包括o1 - mini、o4 - mini这些变体,它们更快、更便宜,专为编码和STEM等不太需要广泛世界知识的任务进行了优化,非常适合对话使用。
3.1.2 Anthropic的Claude系列的混合推理
- 机制:Claude 3.7是首个以“混合推理模型”(hybrid reasoning model)为卖点的模型,它允许用户在快速响应和更深度的“扩展思考”(extended thinking)之间进行选择。随后的Claude 4(Opus和Sonnet版本)进一步将此功能完善为两种明确的模式,允许开发者根据具体应用场景,在延迟和准确性之间做出权衡。
3.1.3 Google的Gemini 2.5,屠榜的存在
Gemini 2.5 pro preview 0605最近在各项测试中名列前茅,表现卓越,直接查看下图。

另外,短期内流传出了Kingfall这个模型,它也支持推理模式,据说性能极其出色,但我尚未进行测试,可参考这篇文章:如何评价Google泄露AI模型KingFall,其性能和现有顶尖模型相比有提升么?
https://www.zhihu.com/question/1917689645715677739/answer/1918068480168691553
3.1.4 Qwen的方法
- Qwen3:同样引入了“思考”和“非思考”模式,并在API中直接提供了一个名为“思考预算”(thinking budget)的参数,这表明这一范式已成为行业共识。思考模式专用于处理复杂的逻辑、数学和编码任务,而非思考模式则用于高效的通用聊天。
3.2 为推理而训练,强化学习的演进角色
强化学习(RL)的角色在这一时期发生了根本性转变。它不再仅仅是用于对话对齐(如RLHF)的工具 ,而是成为了教授模型如何进行推理的核心方法,推理时间也成为了新的“Scaling Laws”。

“Thinking”范式的出现,为扩展AI性能引入了一个全新的、正交的维度——推理时计算。这从根本上改变了AI实验室的经济模型和发展重点。在此之前,AI的进步主要沿着训练时计算和参数数量这两个维度来衡量。主流观点认为,用更多数据训练一个更大的模型,它就会变得更聪明,这是2024年之前的旧模式。
然而,o系列及同类模型证明,对于一组固定的模型权重,通过增加推理期间使用的计算量,可以显著提升模型在复杂任务上的表现。o1的技术分析中有一张图表明确显示,在AIME基准上的准确率随着测试时计算量的增加而提升,这便是新维度的直接证据。
这一转变带来了深远的、高阶的影响。首先,它预示着推理硬件的需求将大幅增长,而不仅仅是训练硬件。运行一次查询的成本不再是固定的,而是根据问题的难度动态变化,这为硬件市场带来了新的增长点。其次,它将研究重点从单纯地扩大预训练规模,转向开发更高效的推理算法(如在思考链中进行更优的搜索或规划)和更有效的RL技术来引导推理过程。此外,它也催生了新的产品设计和商业模式,“Model is the product”的商业模式正在演变,以适应这个新维度,催生了如Gemini Flash与Pro、o4 - mini与o3这样的分层产品,其中“Thinking”成为一个关键特性和差异化卖点,允许客户根据任务需求购买相应水平的智能。
3.2.1 DeepSeek - R1的RL优先流水线
- 机制:DeepSeek - R1的训练过程是以RL为中心的多阶段流程。在通过SFT(监督微调)进行Cold Start后,模型会进入一个大规模的RL阶段,该阶段专注于基于规则的评估任务,以激励模型生成准确且结构清晰的推理过程。此后,再进行更多的SFT和一个最终用于通用对齐的RL阶段。
- 目标:这种RL优先的方法促使模型自发地涌现出自我验证和错误修正等高级行为,产生了“Aha moment”,从而减少对大规模人工标注推理数据集的依赖,所以GRPO基本是目前广泛使用的模式,很多变体都是基于此进行改进。
3.2.2 Minimax - m1的CISPO算法
- 机制:Minimax为训练大型模型开发了一种新颖的RL算法CISPO(Clipping Importance Sampling Policy Optimization),这也是GRPO的变体,算法通过裁剪重要性采样权重而非使用信任域约束来稳定训练过程。
- 影响:这一算法创新对于成功训练庞大的456B混合专家模型至关重要。它在处理需要长远规划的复杂任务时,相比之前的方法实现了2倍的训练速度提升,仅用三周时间就完成了整个RL训练周期,花费了五百多万美元的GPU hours,具有较高的性价比。
3.3 从理想到行动:智能体工具使用的黎明
一旦模型具备了推理和规划的能力,合乎逻辑的下一步就是让它能够通过与外部工具交互来执行计划。这正是AI智能体的定义。
3.3.1 OpenAI的o3和o4 - mini
- 这些模型是首批被描述为具备“智能体工具使用”(agentic tool use)能力的模型。它们能够自主地决定何时以及如何组合使用网页搜索、Python代码分析和DALL - E图像生成等工具来解决一个复杂的用户请求。例如,模型可以多次搜索网页,分析返回结果,并根据分析动态调整后续策略。
3.3.2 Anthropic的Claude 4
- Claude 4的发布伴随着一套专为构建智能体而设计的新API功能:一个代码执行Sandbox、一个用于访问本地文件的Files API和一个MCP工具。这些功能,再结合独特的“计算机使用”(computer use)能力(即生成鼠标和键盘操作),使Claude成为构建能够与数字信息和图形用户界面(UI)进行交互的强大智能体的理想平台,目前Claude Code也给Cursor等带来了很大的竞争压力。

被折叠的 条评论
为什么被折叠?



