对大模型微调的重新关注

最新推荐文章于 2025-11-24 18:29:32 发布

原创最新推荐文章于 2025-11-24 18:29:32 发布 · 776 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习 #LLM #deepseek

AI深度认知专栏收录该内容

8 篇文章

订阅专栏

引言

自2024年初以来，大型语言模型（LLM）的微调技术领域经历了一场深刻而系统的演进。这一转变并非单一事件驱动，而是由强化学习（RL）算法的突破、超大规模模型架构的成熟以及训练范式的持续创新共同推动的结构性变革。曾经被视为“穷人版预训练”的微调，如今已发展成为塑造模型特定能力、培养其高级“思维”能力的核心手段，尤其是在构建能够自主解决复杂问题的AI智能体（Agent）方面，展现出不可或缺的价值。

本文将按照真实的技术发展时间线，梳理从2024年到2025年微调领域的关键范式革新，并探讨其背后的技术逻辑与未来趋势。

强化学习算法的突破：从结果导向到过程优化

强化学习微调的核心在于通过奖励信号优化模型策略。近两年的发展趋势表明，研究重点正从关注最终结果的稀疏奖励，转向关注推理过程的稠密奖励，从而实现更高效、更可控的训练。

GRPO：重新思考RL对齐（2024年2月）

DeepSeek在其数学推理模型DeepSeek-Math的研究中，提出了组内相对策略优化（Group Relative Policy Optimization, GRPO）算法 1。该算法是对经典PPO（Proximal Policy Optimization）的重大改进，其核心思想是通过在同一状态下采样多个输出，并根据它们之间的相对优劣（例如，哪个答案更接近正确解）来构建奖励信号，从而替代了传统PPO中依赖庞大Critic网络进行绝对价值评估的方式。这种设计显著降低了训练的复杂度和资源消耗，尤其在数学推理等具有明确验证标准的场景下，能够利用稀疏但准确的最终奖励（如答案对错）高效地驱动模型优化其推理过程。

L2T框架：过程奖励的精细化调控（2025年5月）

中国科学院软件研究所在NeurIPS 2025上发表的L2T（Learning to Think）框架，进一步深化了过程奖励的理念 2。L2T引入了一种基于信息论的稠密过程奖励机制。它将复杂的推理任务分解为多个推理回合，并评估模型在每一步推理中产生的信息增益。通过这种方式，L2T能够量化每一步“思考”的价值，从而鼓励有理有据的推理步骤、抑制冗余或无效的生成。这与仅依赖最终结果的奖励机制形成了鲜明对比，实现了对模型思考路径的精细化调控。

训练范式的创新：从“模仿”到“思考”与“探索”

随着模型能力的增强，如何让模型不仅仅是模仿，而是真正理解任务并具备泛化能力，成为了训练范式创新的核心议题。

“预训练-中训练-后训练”三段式范式成为共识

如今，LLM的训练流程已普遍演变为一个三阶段过程 3。在海量数据上完成预训练（Pre-training）后，模型会进入中训练（Mid-training）阶段，通过注入特定领域知识（如代码、医学文献）来增强专业能力。最后，在后训练（Post-training）阶段，通过指令微调和强化学习，使模型对齐人类偏好，学会按指令行动。

Meta的“早期经验”：弥合模仿与探索的鸿沟（2025年10月）

在这一三段式框架下，Meta于2025年10月提出的“早期经验”（Early Experience）学习范式，为后训练阶段提供了新的思路 4。它被视为介于监督学习（模仿专家）和纯强化学习（自主试错）之间的“中间立场范式”。该方法让AI智能体首先在环境中进行有限的自主探索，并观察自身行动带来的状态变化（例如，点击网页上错误的按钮会看到什么）。这些不依赖外部奖励信号的交互数据，被用来训练模型理解环境的动态和因果关系。这种方式让模型不仅能学会“怎么做”，还能理解“为什么这么做”，为其后续通过强化学习成为能应对复杂情况的通用智能体打下了坚实基础。

高效训练与自我进化的新前沿

面对日益增长的模型规模和能力需求，社区也在探索更高效的知识传授和模型自我迭代机制。

在线策略蒸馏：更高效的“师徒传授”（2025年10月）

Thinking Machines Lab提出的在线策略蒸馏（On-Policy Distillation）提供了一种极具效率的RL训练模式 5。在这种“师徒传授”机制中，一个较小的“学生”模型自己尝试解决问题，同时由一个更强大的“教师”模型对学生解题过程的每一步进行细致的评估和指导，提供稠密的奖励信号。这种方法巧妙地结合了强化学习（学生自主探索）和知识蒸馏（教师密集指导）的优势，既保证了训练数据与学生模型自身能力水平匹配（On-Policy），又克服了传统RL反馈稀疏的缺点，实现了训练效率的巨大提升。

SEAL框架：迈向模型自我进化（2025年6月）

MIT的研究人员提出的SEAL（Self-Adapting Language Models）框架，则将模型的自主性推向了新的高度 6。SEAL展示了模型自主生成微调数据和更新指令的能力。其核心是一个内外嵌套的双层学习循环：内循环中，模型根据任务表现生成“自我编辑”（self-edits）指令，用于调整自身权重；外循环则是一个强化学习过程，根据内循环更新后模型的性能表现计算奖励，反过来优化“自我编辑”指令的生成策略。这种机制指向了未来模型持续自我优化的可能性，让模型能够“学会学习”。

模型规模与架构的协同进化

微调技术的进步与模型底层架构的创新密不可分。正是因为架构的演进，超大规模模型才得以“飞入寻常百姓家”，并实现更高效的能力扩展。

•超大规模模型成为现实：以月之暗面（Moonshot AI）于2025年7月发布的Kimi K2（1万亿总参数，320亿激活参数）7 和DeepSeek的DeepSeek-V3（6710亿总参数，370亿激活参数）8 为代表，万亿级参数的混合专家（MoE）模型已成为开源社区可以接触到的前沿力量。LoRA等参数高效微调技术与DeepSpeed等并行训练框架的结合，极大地降低了开发者在这些巨型模型上进行微调的成本。

•“一次微调，全能专家”的架构创新：由浙江大学等机构研究人员于2025年6月提出的SIMoE（Sparse Interpolated Mixture-of-Experts）框架提供了一种创新的思路 9。它允许仅通过一次指令微调，就将一个普通的稠密模型“升级”为一个内部包含多个“专家”的MoE模型。该框架能够自动识别出数据中蕴含的不同专业领域，并为之生成专门的稀疏化专家网络。在处理不同任务时，模型可以通过一个动态路由网络，调用最合适的能力组合，从而在多项基准测试中实现了性能与效率的双重突破。