集智书童 | 5万字带你领略Post-Training的5大范式 | DeepSeek-R1领衔构建LLM后训练新生态（建议收藏！）

本文来源公众号“集智书童”，仅用于学术分享，侵权删，干货满满。

原文链接：5万字带你领略Post-Training的5大范式 | DeepSeek-R1领衔构建LLM后训练新生态

大语言模型（LLMs）的出现从根本上改变了自然语言处理领域，使它们在从对话系统到科学探索的各个领域变得不可或缺。然而，它们的预训练架构在特定领域往往存在局限性，包括推理能力受限、伦理不确定性以及特定领域性能不佳。这些挑战需要High-Level后训练语言模型（PoLMs）来解决这些不足，如OpenAI-o1/o3和DeepSeek-R1（统称为大型推理模型，简称LRMs）。本文首次全面概述了PoLMs，系统地追踪了它们在五个核心范式中的演变：微调，提高特定任务的准确性；对齐，确保伦理一致性和与人类偏好的对齐；推理，尽管奖励设计存在挑战，但推进多步推理；效率，在日益复杂的背景下优化资源利用；以及集成和适应，在解决连贯性问题的同时扩展跨多样式的功能。

从2018年ChatGPT的基础对齐策略到2025年DeepSeek-R1的创新推理进步，作者展示了PoLMs如何利用数据集来减轻偏差、深化推理能力并提高领域适应性。作者的贡献包括对PoLM演变的开创性综合、一个结构化的分类法，将技术和数据集进行分类，以及一个战略议程，强调LRMs在提高推理能力和领域灵活性方面的作用。作为该领域首次此类规模的调查，这项工作巩固了最近的PoLM进展，并为未来的研究建立了一个严谨的智力框架，促进LLMs在科学和社会应用中的精确性、伦理稳健性和多功能性发展。

1 引言

人们普遍认为，真正的智能赋予作者推理能力，使作者能够检验假设，并为未来的可能情况做好准备。

语言模型（LMs）[1, 2]代表了一种复杂的计算框架，旨在模拟和生成人类语言。这些模型通过使机器能够以接近人类认知的方式理解、生成和与人类语言互动，从而彻底改变了自然语言处理（NLP）[3]领域。与人类通过互动和接触语境环境自然习得语言技能不同，机器必须经过大量的数据驱动训练才能发展出类似的能力[4]。这提出了一个重大的研究挑战，因为使机器能够理解和生成人类语言，同时进行自然、语境适当的对话，不仅需要庞大的计算资源，还需要精细的模型开发方法[5, 6]。

大语言模型（LLMs）如GPT-3 [7]、InstructGPT [8]和GPT-4 [9]的出现标志着语言模型（LM）演变过程中的一个转型阶段。这些模型以其广泛的参数化和High-Level学习能力而著称，旨在捕捉大量数据集中的复杂语言结构、上下文关系和细微模式。这使得LLMs不仅能够预测后续单词，还能在包括翻译、问答和摘要在内的广泛任务中生成连贯、上下文相关的文本。LLMs的发展引发了显著的学术兴趣 [5, 6, 10]，可以分为两个主要阶段：预训练和后训练。

预训练。预训练的概念源于计算机视觉（CV）任务中的迁移学习[10]。其核心目标是利用大量数据集开发一个通用模型，这有助于为各种下游应用进行轻松微调。预训练的一个显著优势是能够利用任何未标注的文本语料库，从而提供丰富的训练数据来源。然而，早期的静态预训练方法，如神经网络语言模型（NNLM）[11]和Word2vec[12]，在适应不同的文本语义环境方面存在困难，这促使动态预训练技术如BERT[2]和XLNet[13]的发展。BERT通过利用Transformer架构并在大规模未标注数据集上采用自注意力机制，有效地解决了静态方法的局限性。本研究建立了“预训练和微调”学习范式，激发了后续许多研究，这些研究引入了包括GPT-2[14]和BART[15]在内的各种架构。

训练后。训练后是指模型经过预训练后所采用的技巧和方法，旨在对模型进行细化和适应，以满足特定任务或用户需求。随着GPT-3 [7]的发布，其拥有175亿个参数，训练后领域经历了显著的兴趣和创新的增长。出现了各种方法来提升模型性能，包括微调[16, 17]，使用 Token 数据集或特定任务数据调整模型参数；对齐策略[18, 19, 20]，优化模型以更好地与用户偏好对齐；知识适应技术[21, 22]，使模型能够融入特定领域的知识；以及推理改进[23, 24]，增强模型进行逻辑推理和决策的能力。这些技术统称为训练后语言模型（PoLMs），它们导致了GPT-4 [9]、LLaMA-3 [25]、Gemini-2.0 [26]和Claude-3.5 [27]等模型的发展，标志着LLM能力的重大进步。然而，训练后的模型通常难以适应新任务，而无需重新训练或进行重大参数调整，这使得PTM开发成为一个活跃的研究领域。

如前所述，预训练语言模型（PLM）的主要目标是提供通用知识和能力，而PoLM则专注于将这些模型适应于特定的任务和需求。这一适应的一个显著例子是最新的大语言模型（LLM）DeepSeek-R1 [28]，它展示了PoLM在增强推理能力、与用户偏好保持一致以及提高跨多个领域的适应性方面的演变 [29]。此外，开源LLM（例如LLaMA [30]、Gemma [31]和Nemotron [32]）以及特定领域的的大型数据集（例如PromptSource [33]和Flan [34]）的日益可用，正推动学术研究行人和行业从业者开发PoLM的趋势。这一趋势强调了在PoLM领域对定制化适应日益增长的认识。

在现有文献中，预训练语言模型（PLMs）已被广泛讨论和综述[10, 35, 36, 37]，而后训练语言模型（PoLMs）则很少被系统性地回顾。为了推进这些技术，深入考察现有研究成果以识别关键挑战、差距和进一步改进的机会是至关重要的。本综述旨在填补这一空白，通过提供一个结构化的框架来概述后训练领域的研究进展。如图1所示，它探讨了后训练的多个阶段，特别关注ChatGPT到DeepSeek所采用的方法。这些技术涵盖了广泛的方法，包括微调、大语言模型对齐、推理增强和效率提升。图中的蓝色部分特别突出了DeepSeek所应用的后训练方法集，强调了其成功适应用户偏好和特定领域需求的创新策略。

1.1 主要贡献

本文对PoLMs进行了首次全面综述，对领域内的最新进展进行了全面、结构化的探讨。虽然之前的综述通常关注LLM发展的特定方面，如偏好对齐[38]、参数高效的微调[39]和LLM的基础技术[40]，但它们主要集中在狭窄的子主题上。相比之下，本综述采取了一种整体方法，提供了对在训练后常用核心技术的全面回顾，并对它们进行了系统分类。此外，作者调查了与这些方法相关的数据集和实际应用，如图2所示，并确定了未来研究的开放挑战和有希望的方向。

本综述的主要贡献如下：

• 全面历史综合。作者提供了对PoLMs的首次深入综合分析，追溯了其从ChatGPT的初始基于人类反馈的强化学习（RLHF）到DeepSeek-R1的创新冷启动RL方法的演变过程。这一综合分析涵盖了关键技术（即微调、对齐、推理、效率和集成与适应），分析了它们的发展及其相关挑战，如计算复杂性和伦理考量。通过将这一进展呈现为一个连贯的叙事，并丰富以关键POST-TRAINING-OF-LLM，作者为研究行人提供了近年来后训练演变的全面概述，为该领域提供了基础性资源。
• 结构化分类和框架。作者引入了一个结构化分类，如图2所示，将训练后方法分为五个不同的类别，并将数据集组织为七种类型，同时将应用框架构建在专业、技术和交互式领域。这个框架阐明了这些方法的相互关系和实际影响，提供了一个系统性的发展视角。通过提供明确的分类和分析洞察，作者提高了新手和专家的可访问性和理解度，为导航训练后研究的复杂性提供了一个全面的指南。
• 未来方向。作者强调了新兴趋势，特别是大型推理模型（LRMs）如o1[41]和DeepSeek-R1[28]的兴起，这些模型利用大规模强化学习来推动推理的边界。作者强调，持续进步对于进一步增强推理能力和领域适应性至关重要。作者的分析确定了关键挑战，包括可扩展性限制、伦理一致性风险和多模态集成障碍。作者提出了如自适应强化学习框架和公平性感知优化等研究途径。这些方向旨在推动模型在训练后的进一步发展，确保大型推理模型达到更高的精度和可靠性，以满足未来的需求。

1.2 组织结构

本调查系统地组织了对后训练语言模型（PoLMs）的全面探索，涵盖了其历史演变、方法、数据集、应用和未来发展趋势。第二章提供了PoLMs的历史概述。第三章探讨了微调，包括第三章1.1节中的监督微调（SFT）和第三章3.3节中的强化微调（RFT）。第四章讨论了对齐问题，涵盖了第四章1.1节中的人反馈强化学习（RLHF）、第四章2.1节中的AI反馈强化学习（RLAIF）和第四章3.1节中的直接偏好优化（DPO）。第五章专注于推理，包括第五章1.1节中的自我改进方法和第五章2.1节中的推理强化学习。第六章概述了效率提升方法，包括第六章1.1节中的模型压缩、第六章2.2节中的参数高效微调（PEFT）和第六章3.1节中的知识蒸馏。第七章研究了集成和适应，包括多模态方法、领域适应和模型合并。第八章回顾了后训练中使用的数据集。第九章探讨了大语言模型（LLM）的应用。第十章评估了开放问题和未来方向。最后，第十一章以总结和研究展望结束。

2 概述

2.1 PoLMs的历史

LLM的进步构成了自然语言处理（NLP）中的一个关键章节，其中后训练方法在它们从通用预训练架构向专用、任务自适应系统演变的过程中起到了关键的催化作用。本节概述了后训练语言模型（PoLMs）的历史轨迹，从BERT [2] 和GPT [1] 等基础预训练里程碑的发展，到当代模型如01 [41] 和DeepSeek-R1 [28] 所体现的复杂后训练范式。如图3所示，这一进展反映了从建立广泛的语用能力到增强任务特定适应性、伦理一致性、推理复杂性和多模态集成等方面的转变，标志着LLM能力的变革性旅程。

现代PoLMs的起源与2018年的预训练革命相吻合，这一革命由BERT[2]和GPT[1]的发布引领，重新定义了NLP基准。BERT的双向自编码框架，利用transformer架构和自注意力机制，在捕获问答等任务中的上下文依赖关系方面表现出色，而GPT的自回归设计优先考虑生成连贯性，为文本生成设定了先例。这些模型确立了“预训练和微调”范式，随后在2019年通过T5[42]进行了改进，该模型将各种任务统一在文本到文本的框架下，促进了多任务学习，并为训练后的进步奠定了坚实的基础。

从2020年开始，PoLMs的领域开始发生显著演变，这一演变是由对高效地将预训练模型适应于数据有限的各种任务的需求不断增长所驱动的。早期的创新，如prefix-tuning[43]和prompt-tuning[44]，引入了轻量级的适应策略，通过修改模型输入而不是重新训练整个架构，实现了多任务灵活性，从而在拓宽适用性的同时节省了计算资源。这一时期还见证了用户中心优化的重要转变，2021年 Reinforcement Learning from Human Feedback (RLHF) [45] 的出现标志着这一转变，该技术利用人类评估来使模型输出与主观偏好对齐，增强了在对话场景中的实用性。到2022年，随着Proximal Policy Optimization (PPO) [46] 的采用，RLHF成熟起来，优化了对齐稳定性并减轻了对噪声反馈的过拟合。2022年末ChatGPT的发布[9]将这些进步具体化，展示了RLHF在创建响应式、用户对齐的LLM方面的变革潜力，并催化了PoLMs研究的激增。同时，Chain-of-Thought (CoT) prompting [47] 作为一种推理增强策略出现，鼓励模型在复杂任务中阐述中间步骤，从而提高透明度和准确性，尤其是在逻辑推理和问题解决领域。

2022年至2024年间，PoLMs在解决领域特异性、伦理鲁棒性和多模态集成方面进行了多样化发展，反映了LLM精炼方法日益精细化的趋势。领域自适应技术，如检索增强生成（RAG）[48]，出现以整合外部知识库，为特定领域提供语境丰富的输出，无需全面重新训练——这对于需要最新信息的专业应用来说是一项关键进步。伦理一致性努力在2023年加强，直接偏好优化（DPO）[49]通过直接优化模型输出以符合人类偏好，绕过中间奖励建模，提高了效率和鲁棒性。同时，对多模态能力的追求也取得了进展，PaLM-E [50]和Flamingo [51]等模型开创了视觉-语言集成，随后BLIP-2 [52]和LLaVA [53]将这些努力扩展到更广泛的领域，如医学成像。效率创新与这些发展并行，特别是通过专家混合（MoE）架构；2022年，谷歌的Switch-C Transformer [54]引入了在2048个专家中Sparse激活1.6万亿参数，而Mixtral [55]则进一步优化了这一范式，平衡了可扩展性和性能。在此期间，推理增强，如自我博弈[56]和蒙特卡洛树搜索（MCTS）与CoT [57]的集成，通过模拟迭代推理路径，进一步增强了LLM的决策能力，为以推理为重点的High-Level模型奠定了基础。

随着专家混合（MoE）模型的出现，在计算效率优化和参数规模扩展方面取得了显著的架构进步。这些模型与传统密集架构不同，通过动态激活选择性参数子集，从而在平衡资源需求与性能提升之间找到了平衡点。这一范式由谷歌在2022年推出的Switch-C Transformer [54] 领先提出，该模型拥有1600亿个参数，分布在2048个专家中，开创了一种突破性的方法。后续的迭代，如Mixtral [55] 和DeepSeek V2.5 [58]——后者利用了2360亿个总参数，其中210亿个参数在160个专家中活跃——进一步优化了这一框架，在LMSYS基准测试中取得了最先进的结果，并证明了SparseMoE架构在可扩展性和有效性方面可以与密集模型相媲美。这些进展强调了向以效率为导向的PoLMs转变，使LLM能够以较低的计算开销处理复杂任务，这是扩大其实际应用范围的关键一步。到2025年，DeepSeek-R1 [28] 作为PoLMs创新的里程碑出现，摆脱了对传统监督微调（SFT）的依赖，转而采用思维链（CoT）推理和探索性强化学习（RL）策略。以DeepSeek-R1-Zero为例，该模型集成了自我验证、反思和扩展的CoT生成，验证了在开放研究范式下，RL驱动的推理激励，并引入了蒸馏技术 [28] 将复杂的推理模式从大架构转移到小架构。这种方法不仅比独立RL训练提供了更优越的性能，而且预示了一个以推理为中心的可扩展范式，为LLM解决训练后方法中持续的计算效率和任务适应性挑战做好了准备。

2.2 PoLMs的公式基础

2.2.1 政策优化原理

近端策略优化（PPO）算法[46]是一种关键的强化学习技术，尤其在需要保持稳定性和效率的设置中非常有用，例如带有人类反馈的强化学习（RLHF）[45]。PPO通过限制策略更新的规模来实现这些目标，确保模型行为的变化是渐进和可控的，从而防止性能的灾难性转变。这在微调大规模语言模型时尤为重要，因为剧烈的策略更新可能导致不可接受或不可预测的行为。

2.2.2 强化学习与人类反馈的原理

强化学习结合人类反馈（RLHF）是一种通过在学习过程中利用人类生成的反馈来使模型与人类偏好对齐的关键方法。这种方法结合了一个奖励函数，该函数明确捕捉人类输入，使模型能够更好地适应用户偏好和现实世界应用。

该目标函数代表了一个标准的强化学习问题，其中模型通过与环境交互，在人类反馈的指导下学习最大化预期奖励。

2.2.3 DPO原则

直接偏好优化（DPO）在强化学习与人类反馈（RLHF）的基础上，通过直接根据人类偏好优化模型输出，这些偏好通常以成对比较的形式表达。DPO消除了传统奖励函数的需求，转而通过最大化基于偏好的奖励来优化模型行为。

2.2.4 GRPO原理

组相对策略优化（GRPO）算法是强化学习中近端策略优化（PPO）算法的一种变体，首次在DeepSeek的先前工作中提出，即《DeepSeekMath：推动开放语言模型中数学推理的极限》[64]。GRPO省略了评论员模型，而是使用组分数估计 Baseline ，与PPO相比，这显著降低了训练资源消耗。

3 PoLMs用于微调

微调是适应预训练大语言模型（LLMs）到特定任务的关键，通过有针对性的参数调整来提升其能力。这个过程利用 Token 或特定任务的语料库来优化性能，弥合通用预训练和特定领域需求之间的差距。本章探讨了三种主要的微调范式：监督式微调（3.1），它使用标注数据集来提高特定任务的准确性；自适应微调（3.2），通过指令调整和基于 Prompt 的方法定制模型行为；以及强化式微调（3.3），它将强化学习集成到迭代优化输出中，基于奖励信号，通过动态交互促进持续改进。

3.1 监督微调

监督微调（SFT）[45]通过利用特定任务的 Token 数据集来调整预训练的大语言模型。与依赖于指令 Prompt 的指令调整不同，SFT直接使用标注数据调整模型参数，从而产生既精确又符合语境的模型，同时保留广泛的泛化能力。SFT弥合了预训练期间编码的广泛语言知识与针对应用的具体需求之间的差距[36]。通过接触大量语料库，预训练的大语言模型获得了通用的语言模式，减少了在微调过程中对大量领域特定数据的依赖。模型选择至关重要：在资源受限且数据集有限的设置中，较小的模型如T5[42]表现出色，而较大的模型，如GPT-4[9]，则利用其优越的容量在复杂且数据丰富的任务中表现出色。

3.1.1 SFT数据集准备

构建高质量的SFT数据集是一个多方面的过程，对于微调的成功至关重要。

3.1.2 SFT过程

如图4所示，一旦数据集准备就绪，微调过程便以预训练的LLM开始，通常通过在大规模原始数据集上的无监督或自监督预训练获得。这一预训练阶段的目标是获取适用于各种任务的通用特征表示[36]。随后，在微调阶段，使用特定任务的标注数据调整模型参数，使模型符合特定应用的需求。此阶段常用的目标函数是交叉熵损失。对于一个具有N个样本和C个类别的分类任务，它可以表示为：

一个突出的例子是BERT模型[2]，它在广泛的语料库（如BooksCorpus和Wikipedia）上进行了广泛的预训练。在微调阶段，这些广泛的表示通过特定任务的数据（例如，用于情感分析的IMDB数据集[91]）进行细化，使BERT能够专门从事情感分类和问答等任务。

3.1.3 全参数微调

全参数微调是指调整预训练模型所有参数的过程，与仅修改参数子集的参数高效方法（如LoRA [92] 或 Prefix-tuning [43]）相对。全参数微调通常适用于需要高精度的任务，例如医疗和法律领域 [93] 的任务，但它涉及到大量的计算开销。例如，微调一个包含65亿参数的模型可能需要超过100 GB的GPU内存，这在资源受限的环境中会带来挑战。为了缓解这些限制，引入了内存优化技术，如LOMO [93]，它可以减少梯度计算和优化器状态的内存占用。模型的参数根据以下规则进行更新：

GPT-3到InstructGPT。全参数微调的一个显著例子是从GPT-3到InstructGPT [45]，在该过程中，模型的所有参数集都使用针对指令跟随任务设计的语料库进行了微调。这种方法能够达到最佳性能，但由于需要更新所有参数，因此计算成本较高。

3.2 自适应微调

自适应微调通过修改预训练模型的行为，以更好地满足用户特定需求和处理更广泛的任务。这种方法引入了额外的线索来指导模型输出生成，提供了一个灵活的框架来定制模型的响应。自适应微调中的显著方法包括指令微调和基于 Prompt 的微调，这两种方法都通过引入特定任务的指导，显著增强了大语言模型的可适应性。

3.2.1 指令微调

指令微调[96]是一种通过在特别构建的指令数据集上微调基础LLM来精炼其的技术。这种方法显著提升了模型在多种任务和领域中的泛化能力，提高了其灵活性和准确性。如图5所示，该过程首先将现有的NLP数据集（例如文本分类、翻译和摘要的数据集）转换为自然语言指令，这些指令包括任务描述、输入示例、预期输出和示例演示。像Self-Instruct[86]这样的技术通过自动生成额外的指令-输出对，进一步增强了这些数据集的多样性，扩大了模型对更广泛任务的接触。微调过程调整模型的参数以与这些特定任务的指令相一致，从而产生一个在熟悉和之前未见过的任务上都能稳健执行的LLM。例如，InstructGPT[45]和GPT-4[7]在广泛的应⽤中展示了显著的指令遵循能力改进。

指令微调的有效性很大程度上取决于指令数据集的质量和广度。高质量的数据集应涵盖广泛的语言、领域和任务复杂度，以确保模型具有广泛的适用性[96]。此外，指令的清晰度和组织结构在使模型能够有效理解和执行任务方面发挥着关键作用。例如，整合演示示例、包括思维链 Prompt [47]等技术可以显著提高需要复杂推理的任务性能。此外，在微调阶段确保任务的平衡分布对于避免过拟合或因任务覆盖不平衡而降低模型性能至关重要。比例任务采样或加权损失函数等技术有助于解决这些问题，确保每个任务在微调过程中公平地做出贡献。因此，通过精心构建和管理指令数据集，研究行人可以极大地提高微调后的LLM的泛化能力，使它们能够在广泛的任务和领域中表现出色[97]。

3.2.2 前缀调整

前缀微调[98]是一种参数高效的微调方法，它涉及在每个语言模型的Transformer层中添加一系列可训练的前缀 Token （连续向量），同时保持核心模型参数不变。如图6（a）所示，这些前缀向量是任务特定的，并作为虚拟 Token Embedding 。为了优化前缀向量，使用了一种重新参数化技巧，其中学习一个小型多层感知器（MLP）函数，将较小的矩阵映射到前缀参数，而不是直接优化前缀向量。这种方法已被证明可以稳定训练过程。一旦前缀向量被优化，映射函数就被丢弃，只保留导出的前缀向量以增强特定任务的性能。

通过在输入序列前添加一个学习到的连续 Prompt 并利用分层 Prompt ，模型的行为被引导向特定任务的输出，而无需对整个模型进行微调。由于仅调整前缀参数，这导致了一种更参数高效的方法。在此基础上，P-Tuning v2 [99] 将分层 Prompt 向量纳入Transformer架构中，专门用于自然语言理解任务。这种方法还利用多任务学习来优化跨任务共享 Prompt ，从而在不同参数尺度上提升模型性能 [43]。前缀调整在促进大语言模型针对特定任务快速和高效适应方面的潜力是显而易见的，使其成为需要灵活性和效率的应用的诱人策略。

3.2.3 Prompt 微调

Prompt 调整[44, 100]是一种旨在通过优化输入层的可训练向量来高效调整大语言模型的方法，而不是修改模型的内部参数。如图6（b）所示，该技术通过引入软 Prompt Token ，在离散 Prompt 方法[101, 102]的基础上进行了扩展，这些 Prompt Token 可以以无限制的格式[44]或作为前缀[100]进行结构化。这些学习的 Prompt 嵌入在与模型处理之前与输入文本嵌入相结合，从而引导模型的输出同时保持预训练权重冻结。 Prompt 调整的两个显著实现是Ptuning[44]，它使用一种灵活的方法来结合上下文、 Prompt 和目标 Token ，使其适用于理解和生成任务。该方法通过双向LSTM架构增强了软 Prompt 表示的学习。相比之下，标准 Prompt 调整[100]采用了一种更简单的设计，其中前缀 Prompt 被添加到输入之前，并且在训练过程中仅根据特定任务的监督更新 Prompt 嵌入。

研究表明， Prompt 微调可以在许多任务中匹配全参数微调的性能，同时需要显著更少的可训练参数。然而，其成功与底层语言模型的容量密切相关，因为 Prompt 微调仅修改输入层的一小部分参数[44]。在这些进展的基础上，如P-Tuning v2 [99]等新方法已经证明， Prompt 微调策略可以有效地扩展到各种模型大小，处理之前认为需要全量微调的复杂任务。这些发现将 Prompt 微调确立为传统微调的高效替代方案，在提供可比性能的同时，降低了计算和内存成本。

3.3 强化微调

强化微调（ReFT）[103]是一种High-Level技术，它将强化学习（RL）与微调（SFT）相结合，以增强模型解决复杂、动态问题的能力。与传统SFT不同，传统SFT通常为每个问题使用单个CoT标注，ReFT允许模型探索多个有效的推理路径，从而提高其泛化能力和问题解决技能。ReFT过程从标准的SFT阶段开始，在该阶段，模型通过监督标注在 Token 数据上初步训练，以学习基本任务解决能力。在初始微调之后，模型使用强化学习算法（如近端策略优化PPO[46]）进行进一步精炼。在强化阶段，模型为每个问题生成多个CoT标注，探索不同的潜在推理路径。这些生成的路径通过比较模型的预测答案与真实答案来评估，正确的输出获得奖励，错误的输出则受到惩罚。这一迭代过程推动模型调整其策略，最终改善其推理策略。

如图7所示，ReFT过程分为两个阶段执行。上部代表SFT阶段，模型在多个epoch中迭代训练数据，以学习每个问题的正确CoT标注。在下部，引入了ReFT阶段：从SFT训练的模型开始，模型根据其当前策略生成替代的CoT标注（e`），并将其预测答案(y`)与真实答案(y)进行比较。对于正确答案给予正奖励，对于错误答案给予负奖励，从而推动模型提高其性能。然后，这些奖励信号被用于通过强化学习更新模型的政策，增强其生成准确和多样化CoT标注的能力。

近期研究表明，ReFT在性能上显著优于传统的SFT方法[103]。此外，集成推理时间策略，如多数投票和重新排序，可以进一步提升性能，使模型在训练后能够优化其输出。值得注意的是，ReFT在无需额外或增强训练数据的情况下实现了这些改进，它仅从SFT阶段使用的现有数据集中学习。这突显了该模型卓越的泛化能力，因为它能够更高效、更有效地从可用数据中学习。

4 对齐的PoLMs

LLM中的对齐涉及引导模型输出符合人类期望和偏好，尤其是在安全关键或面向用户的应用中。本章讨论了实现对齐的三个主要范式：带有人类反馈的强化学习（4.1），它使用人工标注的数据作为奖励信号；带有AI反馈的强化学习（4.2），它利用AI生成的反馈来解决可扩展性问题；以及直接偏好优化（4.3），它直接从成对的人类偏好数据中学习，而不需要显式的奖励模型。每个范式在其追求稳健对齐的过程中都提供了独特的优势、挑战和权衡。这些方法和相关方法的简要比较总结在表2中。

4.1 带有人工反馈的强化学习

监督微调（SFT）[45]作为引导大语言模型（LLMs）遵循人类指令的基础技术。然而，在纯粹监督场景中，标注数据的多样性和质量可能不均衡，监督模型捕捉更细微或适应性人类偏好的能力通常有限。为此，基于强化学习（RL）的微调被提出以解决这些不足。在RL方法中，基于人类反馈的强化学习（RLHF）[104]脱颖而出，成为最早且最具影响力的基于RL的模型微调方法之一，旨在实现模型与人类意图的对齐。

如图8所示，RLHF首先将人类反馈以偏好标签或奖励信号的形式进行聚合，然后利用这些信息来训练奖励模型。在奖励模型的引导下，策略被迭代调整以更好地匹配人类偏好。与SFT相比，RLHF融入了连续的、由偏好驱动的更新，导致更强的对齐结果。值得注意的是，现代LLM如GPT4[9]、Claude[27]和Gemini[76]都受益于这些机制，展示了在指令遵循、事实一致性和用户相关性方面的改进。以下，作者将讨论RLHF的主要组成部分，包括反馈机制、奖励建模和政策学习策略。

4.1.1 强化学习与人类反馈的反馈机制

人类反馈是强化学习与人类反馈（RLHF）的核心，它向奖励模型传达用户偏好并指导策略更新。本小节采用[124]的分类法对常见的人类反馈形式进行分类。表3展示了这些反馈类型在粒度、参与程度和明确性等维度上的分布。每种反馈方式都对模型优化具有不同的贡献，提供了不同水平的可解释性、可扩展性和噪声容忍度。

主要反馈。这一类别包括直接塑造RLHF中奖励模型的各种反馈类型。例如，批判[125]侧重于对 Agent 行为进行明确的人类评估，通常通过二进制或多标签标注来减少噪声。比较[126]允许评估者比较多个输出或轨迹；虽然更大的选择集可以提供更丰富的信号，但也可能导致因果混淆。跨时反馈[127]通过在不同时间步提供判断来细化轨迹评估，而 Agent 奖励[128]则结合了近似奖励函数，引导模型向用户定义的目标发展。社会行为[129]利用隐含线索（例如，面部表情）将 Agent 目标与用户情感对齐。改进[130]强调实时人类干预以进行增量策略细化。最后，自然语言反馈[131]利用文本信息传达偏好和改进建议。

补充反馈。除了主要反馈外，两类反馈进一步强化了奖励建模过程。紧急停止（e-stops）[132]允许人类通过中断 Agent 的轨迹来干预其行为，而不提供替代方案。这种反馈的特点是隐含的参与和单一的关注点，即防止不良行为。相比之下，重要性标签[133]表明特定观察对于实现目标的重要性，提供不直接改变行为的明确反馈。这种反馈因上下文而异，作为补充输入，强化了奖励模型的总体学习过程。

特定表示反馈。某些反馈类型主要增强表示学习，而不是直接塑造奖励函数。特征痕迹[134]促使人类操作员展示给定特征的单调变化，从而实现特征集的动态扩展。相似度 Query [135]比较轨迹的三元组，通过轨迹空间中的成对距离引导表示学习。通过利用这些特定表示的反馈形式，强化学习与人类反馈融合（RLHF）可以实现对新任务和情境的更鲁棒的一般化。

4.1.2 强化学习与人类反馈的奖励模型

距离函数。最近的研究主要集中在考虑潜在变换（如潜在塑造）的奖励评估距离函数上。例如，EPIC [140] 在各种变换下测量奖励函数等价性，而DARD [141] 通过细化规范化过程来确保评估始终基于可行的转换。EPIC-like距离 [142] 通过允许规范化、归一化和度量函数的变异性来推广EPIC的方法，而STARC [143] 在保持EPIC的理论属性的同时提供了额外的灵活性。

视觉与人工检查。其他方法依赖于可解释性和经过筛选的数据集来评估学习到的奖励函数的有效性。PRFI [144] 通过预处理步骤简化奖励函数，同时保持其等价性，从而提高了其透明度。同时，CONVEXDA和REWARDFUSION [145] 提出了旨在测试奖励模型对 Prompt 中语义变化的响应一致性的数据集。这些技术共同促进了奖励函数评估的可靠性，加强了大语言模型与人类偏好的对齐。

4.1.3 强化学习中的强化学习人类反馈（RLHF）策略学习

如图9所示，RLHF的策略学习涉及通过人类反馈在在线和离线环境中优化策略。

在线学习。在在线强化学习与人类反馈（RLHF）中，系统收集对新生成的模型轨迹的实时人类偏好。DPS [146] 算法使用贝叶斯更新来管理对抗过程，而 PPS 和 PEPS [147] 则将动态规划和赌博机思想整合以优化策略行为。在 LPbRL [148] 中，特征嵌入捕捉不断变化的奖励结构，而 PbOP [149] 则将最小二乘估计用于过渡动力学和偏好信号。最近，PARL [150] 通过将反馈获取视为策略优化的一个组成部分，旨在提高数据收集效率。

离线学习。在离线RLHF中，之前收集到的带有偏好标签的轨迹被用于学习或优化策略。例如，[151]研究了使用成对比较数据进行策略学习的悲观最大似然估计，并建立了性能界限。FREEHAND [152]和DCPPO [153]等扩展将方法推广到未知的偏好模型，探讨了离线数据覆盖与策略泛化之间的相互作用。此外，[154]解决了成对比较中Boltzmann模型的过拟合问题，而DCPPO [153]进一步研究了动态离散选择模型以提高反馈效率。

融合线上线下学习。混合方法结合离线预训练和在线偏好聚合，充分利用预先收集的数据，同时仍能融入实时更新。PFERL [155] 采用两阶段方法以最小化人工 Query ，而PERL [156] 探索乐观最小二乘策略以进行主动探索。对弈强化学习 [148] 及其扩展（例如，PRPRL [152] 中的REGIME）通过仔细划分数据采集与反馈收集，以减少人工标注需求，从而优化样本效率、标注成本和政策性能之间的权衡。

4.2 基于AI反馈的强化学习

基于AI反馈的强化学习（RLAIF）通过利用大语言模型（LLMs）生成反馈信号，扩展了RLHF范式。这种方法可以补充或替代人工反馈，在人工标注稀缺、昂贵或不一致的任务中，提供更可扩展、成本更低的偏好数据。

4.2.1 RLAIF 与 RLHF 对比

在规模化应用强化学习与人类反馈（RLHF）时，一个主要挑战在于其依赖于人类生成的偏好标签，这需要大量资源用于收集、整理和标注数据。数据标注过程既耗时又昂贵，而且人类评估者可能会引入不一致性，从而复杂化对所有模型输出的大规模、一致标注。这些限制显著限制了RLHF的可扩展性和效率。为了解决这些挑战，[105]提出了RLAIF，它通过强化学习结合人类反馈与AI生成的反馈来训练模型。通过利用大语言模型（LLMs）作为反馈来源，RLAIF减少了对人标注者的依赖，为传统的RLHF提供了一种可行的替代方案。这种方法能够实现持续反馈生成，显著提高可扩展性，同时保持人类引导的模型优化的灵活性。

如图10所示，RLHF与RLAIF之间的关键区别在于反馈来源：RLHF依赖于人类生成的偏好，而RLAIF使用AI生成的反馈来指导策略更新。实证研究，如[157]中的研究，已证明RLAIF在人类评分员评估下可以达到与RLHF相当甚至更好的性能。值得注意的是，RLAIF不仅超越了传统的监督微调 Baseline ，而且使用与策略模型规模相同的LLM偏好标签器，这突显了该方法的效率。

4.2.2 RLAIF 训练流程

RLAIF训练流程遵循几个关键阶段，在这些阶段中，利用AI生成的反馈来迭代优化模型的行为。该流程有助于将LLM的输出与人类期望对齐，并且能够扩展到各种任务，如[108]中详细所述。阶段如下：

AI反馈收集。在此阶段，AI系统根据预定义的标准生成反馈，这些标准可能包括任务特定指标、响应的正确性或模型输出的适当性。与需要解释和手动标注的人类反馈不同，AI反馈可以在广泛的模型输出中一致生成。这一特性使得AI反馈可以持续提供，显著扩大反馈循环的规模。

奖励模型训练。AI生成的反馈随后用于训练或优化奖励模型。该模型将输入-输出对映射到相应的奖励，使模型的输出与反馈所指示的期望结果相一致。虽然传统的强化学习与人类反馈（RLHF）依赖于直接的人类反馈来评估输出，但RLAIF使用AI生成的标签，尽管可能引入一致性和偏差相关的问题，但在可扩展性和独立于人力资源方面具有优势。

政策更新。最终阶段涉及根据前一步训练的奖励模型更新模型的策略。采用强化学习算法调整模型参数，优化策略以最大化跨各种任务的累积奖励。此过程是迭代的，奖励模型指导模型输出更符合预期目标。

RLAIF的主要优势在于其能够在不要求持续人工干预的情况下扩展反馈循环。通过用AI生成的反馈替代人工反馈，RLAIF促进了LLMs在多个任务上的持续改进，缓解了人工标注工作造成的 Bottleneck 。

4.3 直接偏好优化

如前所述，强化学习与人类反馈（RLHF）[45]通常包括三个阶段：监督微调[17, 86]、奖励建模和强化学习（通常通过近端策略优化，PPO）[46]。尽管RLHF效果显著，但其过程可能复杂且容易不稳定，尤其是在奖励模型拟合并用于微调大语言模型的阶段。困难在于创建一个准确反映人类偏好的奖励模型，以及将语言模型微调以优化估计奖励的同时保持接近原始模型。为了解决这些问题，直接偏好优化（DPO）[49]被引入作为一种更稳定且计算效率更高的替代方案。DPO通过直接将奖励函数与最优策略相联系来简化奖励优化过程。它将奖励最大化问题视为基于人类偏好数据的单阶段策略训练问题，从而避免了奖励模型拟合的复杂性以及Bradley-Terry模型[158]的依赖性。

4.3.1 DPO 的基础

RLHF涉及通过强化学习训练奖励模型（RM）和微调语言模型（LM）。DPO通过直接使用人类偏好数据训练LM，从而简化了这一过程，并在策略中隐式地捕捉了奖励模型。

KL-正则化奖励最大化目标。DPO从已建立的KL-正则化奖励最大化框架开始，如下所示的目标：

4.3.2 DPO的训练细节

4.3.3 DPO的变体

DPO的多个变体已出现，以解决特定的对齐挑战并优化文本生成的不同方面。表2概述了这些方法，它们涵盖了从 Token 级生成优化到控制冗余以及处理列表或负偏好等多个方面。

DPO用于优化生成。基于 Token 级和迭代的DPO策略有助于更精细或连续地与人类偏好对齐。将 Token 级DPO[118]重新表述为带枪手问题，采用由(S,A,f,r,p_0)定义的马尔可夫决策过程（MDP）。这种方法减轻了诸如对不喜欢的 Token 过大的KL散度等挑战。TDPO[119]使用序列前向KL散度代替反向KL散度，提高了文本生成中的对齐和多样性保持。迭代DPO[111]采用多轮方法，通过重复的偏好评估（通常由模型自身执行）来持续优化输出。成对尴尬优化（PCO）[109]将二元反馈扩展到成对设置，使用软边界来平衡探索和利用。步骤式DPO[160]将偏好数据集进行分区，并应用迭代更新，使用每轮更新的策略作为下一轮的 Baseline 。

可控和灵活的DPO。一些DPO变体旨在管理冗余并减少对固定参考策略的需求。R-DPO [116] 通过目标函数中的正则化项惩罚输出长度，解决过度冗余或重复的响应。SimPO [121] 通过归一化响应长度和简化损失函数来处理期望和不可期望的输出，消除了对参考策略的需求。RLOO [112] 利用REINFORCE算法，而不训练价值模型，大幅降低了计算开销。它将整个响应视为单个动作，并从Sparse奖励中学习，与传统基于PPO的方法相比，简化了实现。

列表式DPO。与将偏好数据限制在成对比较不同，列表式DPO针对输出集进行优化。列表式偏好优化（LiPO）[113]直接在候选响应的排序列表上应用学习排序技术，相对于重复的成对比较提高了效率。RRHF [106]将偏好对齐整合到SFT中，消除了单独参考模型的需求。PRO [107]将列表式偏好分解为更简单的二元任务，简化了SFT中的对齐过程。

负DPO。某些任务需要从不受欢迎或有害的输出中进行学习：否定负例（NN）[115]丢弃正面响应，最大化与不太受欢迎的输出的差异。负偏好优化（NPO）[120]使用负偏好的梯度上升，有效减少有害输出并缓解灾难性崩溃。

5 PoLMs for Reasoning

推理是使大语言模型能够处理涉及多步逻辑、复杂推理和复杂决策的任务的核心 Pillar 。本章探讨了两种增强模型推理能力的核心技术：推理自优化（5.1），该技术指导模型自主检测和纠正其推理步骤中的错误；以及推理强化学习（5.2），该技术采用基于奖励的优化来提高模型思维链的一致性和深度。这些方法共同使模型能够更稳健地处理长期决策、逻辑证明、数学推理和其他具有挑战性的任务。

5.1 自我优化推理

推理仍然是优化LLM以应对需要复杂逻辑推理和上下文相关决策的任务的核心挑战。在此背景下，自我优化成为了一种强大的机制，可以迭代地定位和纠正文本生成过程中或之后的错误，显著提高推理深度和整体可靠性。如图12所示，自我优化方法可以分为四类：内在自我优化，依赖于模型的内部推理循环；外在自我优化，结合外部反馈资源；微调内在自我优化，基于自我生成的纠正迭代更新模型的推理过程；微调外在自我优化，利用外部信号和微调以更适应性和长期的方式来优化推理。表4进一步说明了每一类方法如何加强LLM在不同任务中的推理能力。

内在自我优化。内在自我优化方法侧重于赋予模型自身检测和修复内部错误的能力，而不依赖于外部工具。例如，RCI Prompting [190] 仅在识别到矛盾或错误时触发更正，避免对微小不确定性的过度反应。CAI Revisions [105] 通过教授模型自我调节其响应来纠正不希望的结果（例如，冒犯性文本）。类似地，Self-Refine [164] 利用从低质量 Prompt 到高保真指令的转换，优化中间逻辑以提高一致性。CoVe [169] 通过将多答案问题分解为子任务来处理，每个子任务都单独验证以确保整个推理链的精确性和一致性。弱到强泛化（W2SG）方法利用High-Level算法使强大的学生模型能够有效地从能力较弱的教师模型产生的嘈杂演示中学习 [191]。该框架已在不同领域看到了几个关键的发展和应用。最近的研究通过各种创新增强了W2sG。例如，集成学习技术已被成功应用于提高W2sG方法的鲁棒性和有效性 [192]。[193] 采用弱到强外推来增强LLMs的对齐。

外部自优化。这些方法涉及外部反馈源或计算工具来引导和纠正模型的推理。CRITIC [177] 系统地检查逐步输出，提高了复杂推理任务的可靠性。Reflexion [172] 和 Self-Debug [173] 分别将生成的答案与参考解决方案或少样本示例进行比较，迭代地完善逻辑。FLARE [170] 和 Logic-LM [171] 等技术通过引用外部文档或符号求解器，从而最小化逻辑错误。RARR [165] 和 SelfEvolve [166] 表明，验证中间状态（例如，编译器消息或相关知识源）是早期剪枝错误路径并优化模型向正确解决方案的方法。[194] 提出了从人类反馈中进行迭代偏好学习，包括在线设置中直接偏好优化（DPO）算法的迭代版本，以及离线场景中的多步拒绝采样策略。PIT [195] 从人类偏好数据中隐式学习改进目标。

精细调优内在自优化。通过针对内部修订对基础模型进行精细调优，这些方法系统地增强了LLM的自我纠正循环。自我批评[161]旨在通过自我审查来改进摘要，而SelFee[174]则使用迭代反馈循环以确保更高水平的逻辑一致性。火山[180]通过在LLM架构内精细调优一个专门的纠正模块来减少多模态幻觉，而RL4F[167]利用基于RL的批评循环，在需要深入推理的基准测试中平均提高了10%的性能。REFINER[176]同样专注于中间推理路径，而不改变模型的原始生成过程，证明了通过训练模型仔细重新审查其部分输出可以实现持续的改进。此外，易于从简单到复杂泛化的概念作为W2sG的一个有希望的变体出现，其中模型最初在易于验证的示例上进行训练，然后再处理更复杂的任务[196]。这一方法的一个显著实现是在人类可验证的示例上训练一个强大的奖励模型，然后引导更强大的模型在具有挑战性的任务上进行监督[197]。此外，W2SG的有效性不仅限于LLM，在计算机视觉任务中也展示了成功的应用[198]。

精细调整的外部自我优化。在长期改进至关重要的场景中，模型的参数通过外部反馈机制进行更新。例如，Self-Edit [168] 根据执行结果重新生成代码输出，从而在正确性方面实现迭代改进。Baldur [163] 通过添加或修改上下文来加强定理证明，而CodeRL [162] 在程序综合任务中采用基于测试的评论员来验证功能准确性。这些技术共同表明，将外部资源与有针对性的微调相结合，可以促进模型整体推理性能的可靠、逐步提升。

5.2 强化学习在推理中的应用

在5.1小节中，作者探讨了自优化方法，这是一种广泛用于通过局部调整和优化来提升LLM推理能力的常用方法。该技术通常应用于单步任务或输出优化，如文本生成和问答，能够快速提升推理效率。然而，它在处理需要多步逻辑的复杂、长期推理任务时存在困难。OpenAI的o1系列[41]的发布突出了强化学习（RL）作为一种强大的替代方案，通过基于奖励的反馈来优化LLM的High-Level推理，通过细化长内部CoT。这显著提升了在数学证明和战略规划等复杂任务中的性能。o1的成功推动了大规模RL的研究，QwQ-32B-Preview[199]等模型在数学和编程方面表现出色，DeepSeekR1[28]则与o1具备相似的能力。本小节考察了RL在增强推理中的作用，重点关注领先的开放源代码模型DeepSeek-R1和DeepSeek-R1-Zero。

5.2.1 将推理建模为马尔可夫决策过程（MDP）

5.2.2 推理的奖励设计

与具有明确奖励的传统强化学习任务（如游戏得分）不同，在大语言模型（LLM）中的推理需要设计结构化的奖励，以反映正确性、效率和信息的丰富性。常见的方法包括：

5.2.3 基础模型上的大规模强化学习

大规模强化学习已成为提升大语言模型推理能力的一种变革性后训练范式，将焦点从传统的静态无监督学习（SFT）转向动态、自我演进的优化策略。这种方法利用广泛的计算框架和迭代式基于奖励的反馈来直接优化基础模型，绕过了对预标注数据集的需求，并促进了复杂推理技能的自主发展。通过集成大规模强化学习，LLMs可以处理复杂的多步推理任务（例如，数学问题解决、逻辑推理和战略规划），在这些任务中，传统的SFT往往因依赖静态、人工整理的数据而表现不足[45]。DeepSeek-R1模型是这一范式的典范，它采用先进的强化学习技术，如图13所示，在优化资源效率的同时实现了最先进的推理性能。本小节阐述了支撑DeepSeek-R1成功的关键方法，包括新颖的优化算法、自适应探索和轨迹管理，这些方法共同重新定义了LLMs中由强化学习驱动的推理潜力。

组相对策略优化。DeepSeek-R1-Zero模型利用了一种复杂的Proximal Policy Optimization（PPO）变体，称为组相对策略优化（GRPO），以减轻传统RL训练中LLMs固有的大量计算和资源需求。与依赖广泛批评网络的标准化PPO不同，GRPO采用基于组的 Baseline 估计来简化优化过程，显著减少了训练开销，同时保持了策略更新的鲁棒性。这种效率使得在资源受限的系统上实现大规模RL部署成为可能，促进了在扩展轨迹上迭代优化推理策略。通过在可管理的计算范围内优化策略，GRPO将DeepSeek-R1-Zero定位为增强推理能力的可扩展解决方案，如图13所示，使其成为当代RL驱动推理研究的基础。

DeepSeek-R1-Zero. DeepSeek-R1-Zero展示了大规模强化学习（RL）在提升大语言模型（LLM）推理能力方面的变革潜力，它不再依赖于传统的基于强化学习（SFT）的初始步骤，而是采用纯RL驱动的自我进化范式。这种方法使模型能够通过迭代优化其内部概念理解（CoT）并通过奖励反馈自主发展复杂的推理技能，从而绕过SFT通常所需的预标注数据集。结果是，在复杂的多步推理任务（例如数学问题解决和逻辑推导）上性能显著提升，这证明了RL从基础模型中解锁High-Level推理能力的能力。作为最强大的开源推理模型之一，DeepSeek-R1-Zero的成功凸显了冷启动RL策略的可行性，提供了一种资源高效的替代传统训练流程的方法，同时达到了最先进基准的同等水平。

5.2.4 冷启动下的推理强化学习

DeepSeek-R1-Zero通过采用冷启动方法进一步推进了强化学习（RL）的应用，摒弃了基于强化学习（SFT）的方法，完全依赖于从未训练过的基模型进行大规模RL。这种自我进化策略通过迭代反馈来优化推理，生成无需预标注数据依赖的鲁棒CoT序列。通过直接在推理任务上进行训练，DeepSeek-R1-Zero展示了RL的通用性，其性能与使用SFT初始化的模型（如其DeepSeek-R1对应版本）相当甚至更优。这种方法不仅减少了对外部大量标注数据集的依赖，还展示了RL自主发展复杂推理能力的潜力，为未来LLM的发展提供了一个可扩展的范例。总体而言，RL为增强推理提供了一个有前景的框架，有效的奖励设计、策略优化（例如，GRPO）和探索策略仍然至关重要。未来的研究可以探索混合方法，将模仿学习或自监督目标与这些能力相结合，以进一步优化这些功能，巩固RL在推进LLM推理中的作用。

6 PoLMs的效率

基于前几章讨论的模型训练后优化技术，模型训练后效率特别针对LLMs在初始预训练之后的运行性能。主要目标是优化关键部署指标（例如，处理速度、内存使用和资源消耗），从而使LLMs在现实应用中更加实用。实现模型训练后效率的方法主要分为三大类：模型压缩（6.1），通过剪枝和量化等技术减少整体计算足迹；参数高效微调（S6.2），仅更新模型参数的一部分或使用专用模块，从而最小化重新训练成本并加速对新任务的适应；以及知识蒸馏（S6.3），将大型预训练模型的知识转移到小型模型中，使小型模型能够在资源需求减少的情况下实现可比的性能。

6.1 模型压缩

模型压缩涵盖了一系列旨在减少大语言模型（LLMs）大小和计算需求的技巧，包括训练后量化、参数剪枝和低秩逼近。

6.1.1 训练后量化

仅权重量化（WOQ）。WOQ专注于压缩模型权重以提高效率。GPTQ [230] 使用最优脑量化（OBQ）进行层间量化，将权重降低到3或4位，以降低内存使用和处理时间。为了进一步提升效率，QuIP [203] 引入了针对2位量化的非相干处理，提供了更加紧凑的表示。类似地，AWQ [204] 和 OwQ [205] 通过保持特别敏感的权重的高精度来处理精度保留问题，从而最小化推理过程中的潜在精度损失。最后，SpQR [201] 将Sparse量化与解码相结合，实现了高效的按 Token 推理，同时保持了模型的响应能力。

权重-激活协同量化（WAQ）。WAQ将权重和激活整合以提升效率。LLM.int80 [214] 通过精确存储处理激活异常，并量化至8位，同时保持性能。SmoothQuant [218] 实现了通道级缩放，将量化难度从激活转移到权重，以实现无损结果。此外， OS+[219] 通过通道级平移和缩放减轻了异常值的影响，从而提高了效率。OmniQuant [220] 将量化难题从激活转移到权重，并微调极端值的截断阈值。为了进一步提升效率，RPTQ [231] 将相似通道分组以确保量化参数的一致性。

KV-Cache 量化（KVQ）。KV-Cache 量化针对 LLM 中的内存优化挑战，尤其是在输入 Token 数量增加时。KVQuant [224] 引入针对大上下文长度高效推理的定制方法，以最小的性能损失保持性能。KIVI [228] 通过为 Key和Value 缓存应用不同的量化策略来优化内存节省，实现了无需微调的 2 位量化。WKVQuant [225] 进一步通过二维量化策略和跨块正则化进行了改进，提供了与权重-激活量化相当的记忆效率，同时几乎保持了相同的性能。

6.1.2 参数剪枝

参数剪枝[232]是提高大语言模型（LLMs）效率的关键技术，通过最小化模型大小和复杂性来提升性能，同时不牺牲准确性。如图15所示，剪枝可以分为无结构剪枝和结构化剪枝。

非结构化剪枝。非结构化剪枝通过消除非关键权重来增强大语言模型（LLM）的Sparse性。被称为SparseGPT [230]的方法通过一次性剪枝实现了高达60%的Sparse度，同时保持最小的损失。Wanda [233]方法基于权重幅度和激活进行剪枝，无需重新训练。同时，SAMSP [234]利用Hessian矩阵的敏感性进行Sparse性的动态调整，旨在最小化误差。DSnoT [235]通过采用迭代剪枝周期来提高性能。最后，Flash-LLM [236]从全局内存中检索Sparse权重，并在片上缓冲区中密集重建，以促进高效计算。

结构化剪枝。这种方法侧重于在大语言模型（LLMs）中剪枝整个参数组，以提升硬件效率并简化结构。例如，LLM-runer [237] 对 LLaMA [65] 进行重要性评估，并使用 LoRA [92] 在剪枝后恢复精度。FLAP [238] 通过结构化指标优化压缩，而不进行微调。SliceGPT [239] 在保持效率的同时，使用主成分分析（PCA）进行剪枝。Sheared LLaMA [240] 通过基于正则化的剪枝细化模型形状。LoRAPrune [241] 通过基于 LoRA 重要性迭代的结构化剪枝来提升效率。此外，Deja Vu [242] 通过预测关键注意力头和 MLP 参数，使用上下文Sparse性来降低延迟，同时保持精度。

6.2 参数高效微调

参数高效微调（PEFT）的流程包括冻结整个LLM主干网络，仅修改少量新添加的参数。如图16所示，PEFT方法分为四类：加性PEFT、选择性PEFT、重新参数化PEFT和混合PEFT。

6.2.1 加性PEFT

增量式PEFT在不改变原始参数的情况下，将新的可训练模块添加到LLM中，允许进行特定任务的微调，同时保留基础模型的知识，这对于微调来说效率很高。

Adapter 。 Adapter 将紧凑层集成到Transformer模块中，定义为：

6.2.2 选择性PEFT

6.2.3 重参化PEFT

alpha是一个缩放因子。这种方法允许在保留核心知识的同时，高效地适应新任务。基于LoRA，Intrinsic SAID [272] 最小化了微调参数空间，进一步降低了计算需求。动态变体，包括DyLoRA [273] 和 AdaLoRA [274]，根据任务特定需求动态调整秩，其中AdaloRA还结合了基于SVD的剪枝以提高效率。SoRA [275] 通过去除正交约束简化了过程，而Laplace-LoRA [276] 应用贝叶斯校准进行微调。Compacter [277] 和 VeRA [278] 进一步降低了参数复杂性。此外，DoRA [279] 优化了方向组件的更新，HiRA [280] 使用Hadamard积进行高秩更新，从而提高了效率和性能。为了应对多个任务和不断发展的领域，Terra [281] 集成了一个时变矩阵，而ToRA [282] 利用Tucker分解进一步改进LoRA结构。除了结构设计，PiSSA [283] 和 LoRA-GA [284] 使用SVD和梯度对齐优化LoRA的初始化。同时，LoRA+ [285]、LoRA-Pro [286] 和 CopRA [287] 进一步细化了梯度更新策略。此外，ComLoRA [288] 采用竞争学习来选择表现最佳的LoRA组件。

6.2.4 混合PEFT

混合PEFT方法通过整合或优化各种微调策略来提高训练后的效率。一种显著的技巧，UniPELT [289]，在Transformer块中合并了LoRA、前缀调整和 Adapter 。该方法通过由 FFN （FFNs）管理的门控机制动态激活组件，这些FFN产生标量G属于[0,1]，最终优化参数利用。另一种创新的方法，MAM Adapter [250]，通过在自注意力层中战略性地定位前缀调整并使用前馈层中的缩放并行 Adapter 来改进这种技术。此外，基于NAS的方法，如NOAH [290]和AUTOPEFT [291]，通过识别针对特定任务的优化PEFT配置来提高训练后的效率。此外，HeadMap [292]使用贪婪方法识别一系列在特定任务中发挥关键作用的注意力头（即知识回路），并通过将这些注意力头的输出映射回LLM的残差流来有效地提高模型性能。最后，LLM-Adapters [293]提供了一个框架，用于在LLMs中整合各种PEFT技术，确保在不同模型规模上保持效率的最有效模块放置。

6.3 知识蒸馏

知识蒸馏（KD）是LLMs（大语言模型）训练后优化的基石技术，它能够将大型预训练教师模型的知识转移到紧凑的学生模型中，从而在不牺牲性能的前提下提高效率。知识蒸馏最初是在模型压缩的背景下提出的，因其能够将复杂知识蒸馏到资源高效的架构中而受到广泛关注，使得在边缘设备、嵌入式系统等受限环境中部署成为可能。通过利用教师模型的细微输出分布——比传统的硬标签更丰富——KD使学生模型不仅能够复制类别预测，还能复制教师表示中嵌入的类别间关系和微妙模式。这个过程通常涉及优化一个复合损失函数，该函数平衡了监督学习目标与蒸馏特定目标，大幅降低了计算和内存需求，同时保留了泛化能力。

KD在资源受限的环境和迁移学习中，即预训练教师指导特定任务的学生的场景中，被广泛应用。其有效性取决于教师容量、学生架构和蒸馏损失设计等因素。最近的研究进展将KD扩展到输出蒸馏之外，使得在模型训练后优化中能够实现更高效和适应性更强的LLMs。KD方法可以根据对教师模型内部参数和中间表示的访问 Level ，分为黑盒KD和白盒KD。如表6所示，知识蒸馏方法可以大致分为两种类型：黑盒KD和白盒KD。作者系统地总结了在大语言模型（LLMs）中各种知识蒸馏技术，包括它们对应的技术、教师模型和学生模型。

黑盒KD。黑盒KD指的是一种场景，其中学生模型仅从教师模型的输出logits中学习，而没有访问其内部表示或架构细节。这种方法最初由Hinton [321] 提出，与经典的KD范式相一致，由于其灵活性而被广泛采用。黑盒KD的一个关键优势是将教师模型视为一个不透明的函数，即使在教师模型是专有或受限制访问的预训练模型时，也能实现知识迁移。在实践中，大型教师LLM（例如ChatGPT和GPT-4 [9]）通常被用来生成高质量的输出。同时，较小的语言模型（SLM），包括GPT-2 [14]、T5 [322]、Flan-T5 [323]和CodeT5 [324]，作为学生模型。这些SLM在保持强大泛化能力的同时优化了效率，使得它们适合在资源受限的环境中部署。

白盒KD。白盒KD通过利用教师模型内部表示的额外见解扩展了传统的蒸馏范式。当教师模型的架构已知且可访问时，这种方法是有益的，因为它允许更丰富的监督形式。与将教师视为不透明函数的黑盒KD不同，白盒KD允许学生模型不仅从教师模型的输出logits中学习，还可以从其中间激活、隐藏层，甚至潜在的关注权重中学习[325]。

DeepSeek-R1：推理模式的直接蒸馏。DeepSeek-R1展示了知识蒸馏（KD）的变革潜力，通过将大型模型中的复杂推理模式蒸馏到紧凑架构中，显著提升了小型大语言模型（LLMs）的推理能力，而无需承担直接强化学习（RL）对这类模型带来的计算负担。这种方法被称为直接蒸馏，它利用了一个由大型教师模型生成的约800,000个样本的精选数据集，其中包含200,000个来自DeepSeek-V3的非推理实例和600,000个由DeepSeek-R1-Stage1预训练权重生成的推理实例。这些样本构成了应用于开源基础模型（如Qwen和LLaMA mini变体）的微调（SFT）的基础，使学生模型能够继承通常只为它们的大型对应物保留的复杂推理能力。

DeepSeek-R1中的直接蒸馏过程在结构化的 Pipeline 中展开，如图17所示。最初，教师模型——在大量数据集上预训练——生成一个包含推理和非推理输出的多样化语料库，捕捉到一系列逻辑模式和事实知识。非推理数据（约200kΩ样本）提供了一个通用知识的基础，而推理数据（约600k样本）封装了多步推理链，通过教师的先进能力进行精炼。然后，这个数据集被用于SFT阶段，其中学生模型被训练以使其输出分布与教师模型的对齐，使用推理数据对较小的模型进行直接微调，以蒸馏出一个紧凑的推理模型。与直接应用于小模型的传统RL不同，由于容量限制可能导致推理不佳，DeepSeek-R1的直接蒸馏通过转移预优化的推理行为来规避这种限制，以更低的资源需求实现了更优的性能。

DeepSeek-R1的KD方法的一个显著特点是强调在模型尺度变化时保持推理完整性。通过整合来自DeepSeek-R1-Stage1的推理轨迹——该轨迹是通过大规模RL进行优化的预训练权重——学生模型不仅复制了事实准确性，还模拟了复杂的推理过程，例如数学问题解决或逻辑推理所需的推理过程。这种有针对性的迁移与传统的KD方法形成对比，后者通常优先考虑分类任务，并突出了DeepSeek-R1在推理导向蒸馏方面的创新。此外，该方法最小化了在学生模型上进行大量RL迭代的必要性，利用教师模型预先计算的推理输出以简化训练，从而提高了效率和可扩展性。这种方法将DeepSeek-R1定位为将High-Level推理蒸馏到紧凑型LLMs的范例，为未来的训练后优化工作提供了蓝图。

7 集成和自适应的PoLMs

7.1 多模态集成

基于前几章中阐述的模型训练后优化策略，本节探讨了旨在增强大语言模型（LLMs）和大型多模态模型（LMMs）以有效处理多模态数据的先进方法。虽然监督式微调增强了LLMs在特定任务场景下的能力，但其局限性在于无法充分利用多模态能力的全部范围，这需要更复杂的模型训练后方法。这些技术使得LMMs能够处理复杂的跨模态任务（例如，从视觉输入生成网页代码[326]，解读细微的文化艺术品如表情包[327]，以及在不依赖光学字符识别的情况下进行数学推理[5o]），通过将不同类型的数据整合到一个统一的框架中。通常，LMMs由模态编码器、预训练的LLM主干网络和模态连接器[328]组成，如图18所示。这种架构构成了模型训练后方法的基石，这些方法精炼每个组件，促进了鲁棒的多模态集成和性能提升。

7.1.1 模态连接

模态连接方法在将多模态数据合成一个连贯的表征框架中起着关键作用，主要分为三种策略：基于投影的方法、基于 Query 的方法和基于融合的方法[328]，如图19所示。

基于投影的模态连接。基于投影的方法将多样化的模态输入转换为一个统一的文本嵌入空间，通过将它们的特征与LLMs的语言维度对齐，实现无缝集成。LLaMA-Adapter [329] 通过引入图像编码器将LLMs扩展到多模态系统，实现了图像条件下的指令跟踪。其继任者，LLaMA-Adapter V2 [330]，通过将视觉标签嵌入到早期LLM层中，进一步优化了视觉知识的融合。FROMAGe [331] 在冻结的LLM和视觉编码器框架内对输入和输出层进行微调，以实现跨模态交互，而LLaVA-1.5 [332] 利用双线性多层感知器（MLP）增强了多模态处理中的鲁棒性。近期的发展，如Shikra [333]，通过整合空间坐标来增强自然语言对话，VILA [334] 优化了视觉-语言预训练，以实现更优越的无样本能力。DetGPT [335] 通过将推理驱动的目标检测与自然语言交互相结合，利用投影技术促进有效的多模态通信，进一步推进了这一范式。SOLO [336] 使用单个Transformer架构进行统一和端到端的视觉-语言建模，通过接受原始图像块（以像素为单位）和文本作为输入，而不使用单独的预训练视觉编码器。同时，MiniGPT-4 [326] 通过单层投影层将冻结的视觉编码器与Vicuna对齐，通过两阶段训练过程实现了类似GPT-4的能力。Idefics [337] 通过自回归设计和多阶段预训练在高效推理方面表现出色。LaVIT [338] 使用离散视觉 Token 器将视觉和语言统一，以实现无缝生成。DeepSeek-VL2 [339] 通过动态分块和多头潜在注意力增强了高分辨率图像的理解。最后，Qwen2.5-VL [340] 通过重新设计的视觉Transformer推进了多模态任务，在感知和视频理解方面表现出色。

基于 Query 的模态连接。基于 Query 的方法通过使用可学习的 Query Token 从不同的模态中提取结构化信息，从而增强了多模态集成，弥合了文本和非文本数据之间的差距。BLIP-2 [52] 通过 Query Transformer 开创了这种方法，有效地整合了文本和视觉输入。Video-LLaMA [341] 将此技术扩展到视频理解，通过结合视觉编码器实现。InstructBLIP [342] 精炼 Query 机制以确保精确遵循指令。X-LLM [343] 通过专用接口对多模态输入进行对齐，而后续的创新如mPLUG-Owl [344] 和Qwen-VL [345] 优化了Q-Former架构以提高计算效率。LION [346] 通过推进视觉知识集成进一步证明了基于 Query 方法的有效性，强调了它们在增强跨各种任务的长文本模型（LMM）性能方面的实用性。Qwen-VL [345] 是一系列基于Qwen-7B构建的大规模视觉语言模型，它包含一个视觉接收器、一个位置感知 Adapter 和三个阶段的训练流程，以实现多语言、细粒度的视觉语言理解。Lyrics [347] 是一个细粒度的视觉语言预训练和指令微调框架，通过视觉精炼器（图像 Token 、目标检测和语义分割）和多层次 Query Transformer （MQ-Former）整合语义感知视觉目标，从而增强大型视觉语言模型（LVLMs）。

基于融合的模态连接。基于融合的技术通过将多模态特征直接嵌入到LLM架构中，加深了跨模态交互，促进了推理层面的更丰富整合。Flamingo [51] 使用交叉注意力层在 Token 预测期间融合视觉特征，实现了动态的多模态处理。OpenFlamingo [348] 在此基础上，允许冻结的LLM关注视觉编码器的输出，增强了灵活性。Otter [349] 引入指令调整来提高多模态指令遵循能力，而CogVLM [350] 在Transformer层内整合视觉专家模块，以实现无缝的特征合成。Obelics [351] 利用交错图像-文本训练数据，突出了基于融合的方法在实现连贯多模态性能方面的鲁棒性。Intern VL [352] 是一个大规模视觉-语言基础模型，将视觉编码器的参数量扩展到60亿，并使用语言中间件（QLLaMA）逐步将其与LLM对齐。Llama 3 [25] 是由Meta开发的新一代多语言、工具使用型基础模型系列，参数量扩展到405B，拥有128K Token 的上下文窗口，通过改进数据质量、更大规模的训练和结构化的后训练策略进行优化。

7.1.2 模态编码器

模态编码器将原始的多模态输入压缩成紧凑、语义丰富的表示，从而实现跨不同任务和模态的高效处理。这些组件对于将异构数据转换为与LLM主干兼容的格式至关重要，支持从视觉推理到音频理解的各种应用。表7提供了一个关于在视觉、音频和其他模态中广泛使用的编码器的全面总结，详细说明了它们的特性和对多模态集成的贡献。

视觉编码器。视觉编码器是多模态学习的基础，它促进了在LMMs中对视觉数据的解释和生成。CLIP [372] 通过对比学习建立了图像和文本的联合表示，增强了跨模态对齐。EVA [373] 优化了视觉注意力机制以提高效率，而ImageBind [374] 在多个模态之间创建了一个统一的嵌入空间，提升了零样本识别能力。SigLIP [375] 引入成对sigmoid损失来优化图像-文本预训练，DINOv2 [376] 采用无监督学习从不同来源推导出鲁棒视觉特征。LLaVA [53] 采用了自指令策略将图像转换为文本描述，并使用High-LevelLLMs生成新型数据集。Video-ChatGPT [354] 支持对话式视频理解，并使用大规模指令数据集，而BT-Adapter [355] 通过高效的时间建模优化视频理解。VideoChat [353] 专注于时空推理，利用专用数据集，CoDi-2 [369] 和Mipha [358] 等模型在多模态处理中实现了效率提升。VL-Mamba [357] 和Cobra [359] 引入状态空间模型以优化推理，SPHINX-Tiny [356] 强调数据多样性和训练效率。

音频编码器。音频编码器增强了LMMs处理和解释听觉输入的能力，拓宽了其多模态范围。SpeechGPT [364] 通过整合大规模语音数据集和卷积以及Transformer架构 [377]，实现了鲁棒的指令遵循能力。AudioPaLM [363] 使用通用语音模型（USM）编码器 [378] 结合文本和语音处理，在零样本语言翻译等任务上表现出色。WavCaps [379] 采用CNN14 [380] 和HTSAT [381] 来缓解音频-语言数据稀缺问题，利用High-LevelLMMs来优化数据集质量和提升学习效果，强调了音频模态在多模态系统中的关键作用。

其他编码器。除了视觉和音频之外，适用于其他模态的编码器，如3D理解和多模态融合，对于综合型语言模型（LMMs）至关重要。NEXT-GPT [368] 促进跨模态内容生成，涵盖文本、图像、视频和音频，通过最小参数调整提升类似人类的AI能力。ImageBind-LLM [366] 对齐视觉和语言嵌入，以改善跨模态的指令遵循。LL3DA [370] 处理点云数据以进行3D推理和规划，引入了新的空间理解方法。X-LLM [343] 使用Q-Former [52] 处理图像和视频输入，C-Former [343] 处理语音，将音频特征压缩成token Level 的嵌入，以增强多模态学习效率。

7.2 领域适应

7.2.1 知识编辑

知识编辑是一种High-Level的模型训练后方法，旨在在不损害其基础能力的情况下，修改大语言模型以满足特定领域的需求。该技术通过实现有针对性的参数调整，在保留模型现有性能的同时，整合新的或更新的领域知识[388]。通过使模型能够快速适应不断变化的知识景观，知识编辑成为模型训练后流程中不可或缺的组成部分。主要方法概述（例如，包括外部知识利用、整合和内在编辑）在表8中呈现。

知识识别。知识编辑的初始阶段专注于检测和将新信息整合到模型中。PokeMQA [390] 使用可编程范围检测器和知识 Prompt 来分解 Query ，高效地检索相关事实。相反，SERAC [389] 将反事实模型与分类器集成，以确定新知识源的可适用性，提供一种最小侵入性方法，在不要求进行广泛结构修改的情况下，保持基础模型的完整性。[406] 分析了LLM知识更新产生混乱涟漪效应的原因。现实世界的编辑通常源于新兴事件，这些事件基于新事实与过去事实之间的逻辑联系，基于这一观察，EvEdit [407] 提出了一种基于事件的知识编辑方法，以确定知识 Anchor 点和知识更新边界。

知识关联。在识别之后，此阶段将新获得的信息与模型现有的知识框架关联起来。Transformer-Patcher [392] 将 Transformer 架构适应以整合更新的事实，而 CaliNET [391] 重新校准参数以与事实内容对齐。Eva-KELLM [395]、MELO [396] 和 REMEDI [393] 等方法通过细化特定行为以实现精确更新，GRACE [394] 在知识插入后增强预测准确性，确保与先前表示的无缝集成。

内在知识编辑。最终阶段将相关事实嵌入到模型的内部结构中，确保全面吸收。虽然传统的微调可能资源密集，但先进的技术可以减轻这种负担。约束微调[397]和元学习[399]最小化知识损失和过拟合风险。可编辑训练[398]和知识编辑器[399]允许快速调整参数，同时最小化性能影响，而SLAG[400]、MEND[401]和MALMEN[402]解决编辑冲突，支持大规模更新，在融入新领域见解的同时保持基础能力。LLM手术[403]通过应用反向梯度去除过时数据，梯度下降整合新事实，以及KL散度项保留现有知识，统一了再学习和编辑，实现了显著的计算效率。KNE[404]引入了一种知识神经元集成方法，仅定位和更新与新插入事实强相关的那部分神经元，在保留无关知识的同时实现更准确的编辑。OVERTONE[405]通过引入一种自适应优化训练目标的 Token 级平滑技术来解决知识编辑中的异构 Token 过拟合问题，从而保留预训练知识并提高模型对新插入事实进行推理的能力。这些针对性技术确保模型在整合新获得信息的同时保留其基础能力。

7.2.2 检索增强生成

检索增强生成（RAG）将传统信息检索与当代大语言模型（LLMs）相结合，以提升生成输出的相关性和事实准确性[48, 408, 409]。通过从外部来源动态检索相关信息并将其嵌入到生成过程中，RAG弥补了LLMs在特定领域知识方面的不足，并减少了幻觉内容出现的可能性。这种方法在需要精确、最新信息的领域特别有效，如问答系统[48]、科学研究[410]和医疗保健[411]，它能够熟练处理复杂 Query 和知识密集型任务。此外，RAG减轻了对话系统中误导性回答的普遍性，提高了知识驱动自然语言生成的可靠性[411, 412]。

本小节主要关注基于训练的RAG方法[413]，同时认识到无训练的RAG方法[414, 415, 416]可能会由于缺乏特定任务的优化而降低知识利用效率。三种主要的训练策略——独立训练、顺序训练和联合训练——增强了模型的适应性和集成能力，如图20所示。

独立训练。该策略将检索器和生成器作为独立的模块进行训练，从而在根据任务需求使用Sparse或密集检索器时提供了灵活性。例如，DPR [417] 使用双BERT网络分别编码 Query 和段落，通过对比学习优化检索，而不需要生成器交互。同样，[418] 提出了Reward-RAG，该策略利用奖励模型根据基于GPT的反馈仅微调检索器，而生成器保持不变。

顺序训练。顺序训练通过逐个优化模块来提高效率，促进检索器和生成器之间的协同作用。它包括检索器优先的方法[419, 420, 421, 422, 423]，如RETRO[424]，该方法在训练编码器-解码器之前，先对基于BERT的检索器进行预训练，以便无缝集成检索内容以提升性能。或者，LLM优先的方法[425, 426, 427]，例如RA-DIT[428]，首先微调语言模型以有效利用检索到的知识，然后对检索器进行优化以实现更好的对齐和连贯性[419, 425]。

联合训练。联合训练在端到端框架中同步检索器和生成器的优化。RAG [48] 通过最小化负对数似然来共同训练这两个组件，而REALM [429] 利用最大内积搜索（MIPS）[430] 提高检索精度。这些方法适应特定任务的需求，最大化外部知识的好处并最小化生成错误。

7.3 模型融合

7.3.1 层次 Level 的模型融合

模型合并技术被系统地分为三个层次：权重级、输出级和模型级合并，如图21所示。

Merge表示硬路由或软路由函数。Switch Transformer [54] 使用离散门控来选择性地激活专家层，从而降低计算负载，尽管由于路由的刚性可能会因为性能折衷而受到影响。SoftMoE [441] 和 SMEAR [442] 使用连续门控来促进专家之间的平滑过渡，从而增强组件集成和模型凝聚力。

7.3.2 预合并方法

预合并方法通过优化独立模型的权重空间、架构一致性和参数对齐，为模型合并建立兼容性基础，从而最小化后续融合阶段的冲突和干扰。这些技术提高了合并过程的有效性，确保生成的统一模型保留了其组成部分的优势，同时减轻了潜在的退化。

线性化微调。该方法在预训练模型的切线空间内对模型进行细化，摒弃原始的非线性参数空间，以实现权重解耦，从而减少合并过程中的干扰。例如， Adapter 的部分线性化（如TAFT [443]）或注意力层[444]等技术，可以将权重更新与不重叠的输入区域对齐，保留合并模型中的独立功能[445]。通过将更新约束在线性化框架内，这种方法促进了不同模型之间的无缝集成。

架构转换。该策略将具有不同架构的异构模型转换为便于直接参数合并的统一形式。方法包括知识蒸馏，例如以FuseChat [440]为代表，以及插入身份层，如CLAFusion [446]。GAN Cocktail [447]初始化目标模型以吸收来自不同架构的输出，从而实现一个能够有效弥合结构差异的统一合并过程。

权重对齐。该方法通过排列将模型对齐到共享的权重盆地，利用线性模式连接（LMC）特性以增强兼容性。技术包括最优传输（OTFusion [448]）、启发式匹配（Git re-basin [449]）和学习型对齐（DeepAlign [450]）。REPAIR [451] 缓解了在缺少归一化层的模型中的对齐失败，确保在融合之前参数收敛的鲁棒性。

7.3.3 合并期间方法

在合并期间的方法侧重于动态优化参数融合策略，以解决任务冲突、减轻干扰，并提升合并模型的性能和泛化能力。这些方法应对了实时整合不同模型所面临的挑战，增强了统一架构的适应性和鲁棒性。

基于路由的合并。该技术根据输入特定的属性动态融合模型，实现了一种能够响应上下文的集成过程。SMEAR [442] 计算样本相关的专家权重以优先考虑相关特征，Weight-Ensembling MoE [455] 采用输入驱动的线性层路由进行选择性激活，而Twin-Merging [456] 将任务共享和任务私有知识融合在一起，促进了一种灵活的合并框架，该框架能够适应不同的输入需求并增强多任务鲁棒性。

后校准。该技术通过将统一模型的隐藏表示与独立组成部分的表示对齐，校正合并后的表示偏差，减轻性能下降。表示手术[319]通过精炼表示一致性，增强合并模型的鲁棒性和准确性，是该技术的例证。

8 数据集

训练后技术被精心设计以提升大语言模型（LLM）在特定领域或任务中的适应性，利用数据集作为这一优化过程的基础。对先前研究[457, 82]的深入分析强调了数据质量、多样性和相关性对模型效能的深远影响，往往决定了训练后工作的成败。为了阐明数据集在此背景下的关键作用，作者提供了一个全面回顾和深入分析，涵盖了训练后阶段所使用的各种数据集，根据其收集方法将它们分为三类：人工标注数据、蒸馏数据和合成数据。这些类别反映了数据整理的不同策略，模型可能采用单一方法或集成多种类型的混合方法，以平衡可扩展性、成本和性能。表9提供了这些数据集类型的详细概述，包括它们的来源、大小、语言、任务和训练后阶段（例如，SFT和RLHF），作者将在后续章节中探讨这些内容，以突出它们在提升LLM能力方面的贡献和挑战。

8.1 人工标注数据集

人工标注数据集以其卓越的准确性和语境忠实性而著称，这些属性源于标注者对任务复杂性的细微理解以及他们进行精确、语境敏感调整的能力。这些数据集是精炼指令微调的基础，通过提供高质量、精心策划的训练信号，显著提升了大语言模型在众多任务上的性能。在这一类别中，Flan [17]、P3（公共 Prompt 池）[459]、Sup-Natinst（超自然指令）[462]和Dolly-15K [468]等突出例子作为广泛采用的资源在LLM训练后脱颖而出，每个都通过人类专业知识为模型能力的优化贡献了独特的优势。

人类标注数据在SFT阶段发挥着不可或缺的作用，这一点由Flan、Sup-Natinst和Dolly-15K的贡献得到了证明。它们提供了精心制作的 Prompt -响应对和特定任务的指令，从而提升了LLM在多个NLP基准测试中的效能。

• Flan. Flan数据集[17]是一个基础资源，最初包含62个广泛认可的NLP基准，例如HellaSwag[482]、MRPC[483]和ANLI[484]，旨在通过其180万个示例促进英语中的鲁棒多任务学习。最近，FlanV2[34]作为一个High-Level版本出现，通过整合Flan[17]、P3[459]、Sup-Natinst[462]以及大量其他数据集，将其前驱版本扩展成一个统一、全面的语料库，从而增强了其在不同语言和任务领域中进行SFT的实用性。
• Sup-Natinst. 超自然指令（Sup-Natinst）[462] 提供了涵盖55种语言的76种任务类型，成为多语言LLM后训练的灵活资源。每个任务都与一个包含明确的任务定义——概述从输入文本到期望输出的映射——以及一组示例相匹配，这些示例展示了正确和错误的响应，为引导模型精确执行任务和增强跨语言适应性提供了一个强大的框架。
• Dolly-15k。由Databricks员工开发，Dolly-15K[468]代表了一个由15,000个高质量、人工生成的 Prompt -响应对组成的精选语料库，专门设计用于LLM的指令微调。涵盖广泛的主题和场景，包括头脑风暴、内容生成、信息提取、开放式问答和摘要——这个数据集反映了丰富的任务类型多样性，使模型能够灵活适应各种教学环境，并增强上下文相关性。

人类标注数据集在SFT中的效力源于其对任务和场景的广泛覆盖，这一点在上文提到的语料库中得到了体现。作为补充，OpenAssistant [466] 提供了一个由全局众包努力产生的庞大多语言对话语料库，免费提供给研究界以推进研究工作，而OpenOrca [472] 则通过数百万个GPT-3.5和GPT-4的补全扩展了FlanV2 [34]，构成了一个动态、不断扩大的资源，用于微调和任务对齐。然而，尽管这些数据集对模型泛化做出了重大贡献，但确保标注质量的一致性和多样性仍然是一个挑战，需要严格的质控以最大化其影响。

人类标注数据用于RLHF。对于RLHF，如P3、其多语言扩展xP3[463]和SHP[460]等人类标注数据集提供了关键的人类评估，这些评估有助于调整LLM与用户偏好的对齐，为奖励建模提供了一个细致的反馈机制。

• P3. P3数据集[459]是一个精心整理的指令微调资源，汇集了来自Hugging Face Hub的2300万个多任务 Prompt ，每个 Prompt 都附有手工编写的指令，涵盖了一系列NLP任务，从而为强化学习与人类反馈（RLHF）提供了丰富的基石，以增强大语言模型（LLM）在各种应用场景下的适应性和准确性。

● xP3. xP3（跨语言公共 Prompt 池）[463] 将P3扩展为一个多语言框架，涵盖了46种语言和16个NLP任务的 Prompt 和监督数据，旨在支持BLOOMZ和mTO等模型的多任务 Prompt 微调。其内容整合了英语P3数据集、四个新的英语任务（例如，翻译、程序合成）和30个多语言NLP数据集，为跨语言RLHF优化提供了一个全面资源。

• SHP. SHP [460] 包含了针对18个领域的问答和指令的349,000条人类偏好标注，用于评估响应的有用性以训练RLHF奖励模型和评估自然语言生成（NLG）质量，其独特之处在于完全依赖于人类编写的数据，与HH-RLHF等混合数据集区分开来。

这些数据集通过提供多样化的、人工标注的评估来增强RLHF，从而细化模型与用户偏好的对齐。OpenA1 Summarization [458] 和 Webgpt [461] 提供了结构化、基于比较的反馈和Likert量表评分，有助于使模型输出更接近人类期望。HH-RLHF [104] 通过包括有用性和无害性评估进一步强化了这一框架，为旨在确保安全和道德响应的模型奠定了坚实基础。同时，StackExchange [473] 贡献了特定领域的、用户生成的内容，丰富了训练数据，特别是对需要技术领域专业知识的模型有极大帮助。然而，这些数据集面临着可扩展性、人工标注的潜在偏差以及在其特定领域之外适用性有限等挑战。因此，虽然它们很有价值，但这些资源可能需要与更广泛的数据集相结合，以实现跨各种现实任务的全面模型对齐。

8.2 精炼数据集

精炼数据源于将庞大的原始数据集经过复杂的过程精炼成紧凑、优化的子集，这些子集保留了LLM训练所需的关键信息，在保持性能的同时提高了训练效率并降低了计算需求。这种方法产生的数据集在有效性方面通常可以与未经精炼的原始数据集相媲美，甚至更优，从而加速模型收敛并最小化资源消耗，尤其是在RLHF阶段。关键示例，如ShareGPT [469] 和HC3（人类-ChatGPT比较语料库）[467]，展示了这种方法，它们作为广泛采用的资源，通过将现实世界的交互和比较洞察转化为可操作的训练信号，用于微调LLM。

• ShareGPT. ShareGPT [469]作为一个动态数据收集平台，通过其API聚合了大约90,000次通过ChatGPT或GPT-4与真实用户互动上传的对话。该数据集包含了真实的人类指令和 Query 与相应的AI响应，将自然对话模式提炼为浓缩的资源，使RLHF能够通过高相关性和高质量来提升LLMs的对话流畅性和上下文响应能力。
• HC3数据集[467]是专门设计来对比ChatGPT生成的AI回答与人类撰写的答案的，包含161,000个跨领域的问题-答案对，涵盖开放式话题、金融、医学、法律和心理学科。这个精炼的语料库促进了回答特征和质量的比较分析，使研究行人能够在RLHF过程中提升大语言模型输出的真实性和特定领域的准确性，同时突显人类与AI生成内容之间的差异。

8.3 合成数据集

合成数据是LLM后训练SFT阶段的变革性资产，通过AI模型生成，为人类标注数据集提供成本效益高、可扩展且保护隐私的替代方案。通过自动化创建指令-响应对和对话，合成数据能够实现庞大的训练语料库，从而增强模型的可适应性，Self-Instruct-52K [86]、Vicuna [465] 和 Baize [478] 作为主要示例，被广泛用于提升LLM的指令遵循和对话生成能力。

基于Self-Instruct方法的语料库。采用Self-Instruct方法的合成语料库从一组少量的人工编写的种子示例开始，利用大语言模型生成大量的遵循指令的数据，从而增强模型对不同指令的响应能力，例如Self-Instruct-52K、Alpaca和Magpie系列，这些系列共同通过可扩展的自动化推动了指令微调的发展。

● Self-Instruct-52K. Self-Instruct-52K [86] 为指令遵循模型建立了一个基础基准，通过使用多种 Prompt 模板从人工制作的种子中生成52,000个示例，以引导大语言模型，从而提高它们在精确和一致性地解释和执行特定任务指令的能力。

● 阿尔帕卡。阿尔帕卡[464]和阿尔帕卡-GPT4[18]分别利用GPT-3和GPT-4将初始的175个种子对扩展到52,000个高质量的指令-响应对，从而提高指令遵循能力；而InstIn Wild[477]则将此方法应用于多语言环境，生成英语和中文数据集以增强跨语言适应性。

● 麻雀数据集。麻雀数据集[481]利用对齐的LLMs从预定义模板中生成指令-响应对，产生了如麻雀推理V2（强调思维链推理）、麻雀Llama-3和Qwen-2系列（针对流行模型定制）、麻雀Gemma-2（针对Gemma架构）以及结合偏好优化信号的变体如麻雀-Air-DPO等专门系列，共同提升了在对话和推理任务中的强化学习和指令微调效果。

the

除了这些，像Unnatural Instructions [97]（240K个示例）、Evol-Instruct [470]（通过迭代复杂性增强，70K-143K条精炼条目）和Belle [471]（来自ChatGPT的0.5M-1.1M个中文对话）等数据集显著扩大了指令生成规模，尽管在质量保证、复杂性校准和偏差缓解方面仍存在挑战，需要持续改进以确保在复杂应用中的可靠性。

基于自聊方法的语料库。自聊语料库采用一种技术，即模型在内部或与同伴之间模拟多轮对话，以增强对话生成能力并解决现有语料库的不足，Baize、UltraChat和OpenHermes通过自动化交互策略展示了这一方法。

• Baize [478]。Baize利用ChatGPT的Self-Chat技术生成653,000个多轮对话，整合来自Quora、Stack Overflow和Alpaca的种子数据以丰富指令遵循质量，从而提升LLMs在SFT中的对话连贯性和任务依从性。
• UltraChat。UltraChat [476] 利用多个ChatGPT API生成超过1200万条高质量对话记录，涵盖众多主题，克服了多轮数据集中普遍存在的质量问题和不准确标注等问题，为对话增强提供了强大的强化学习（SFT）资源。
• Openhermes. OpenHermes由Teknium开发，包括OpenHermes-1[474]（243K条条目）及其扩展后的继任者OpenHermes-2.5[475]（1M条条目），提供了高质量、数量和多样性增加的SFT数据集，涵盖广泛的主题和任务类型，以增强对话和教学后的技能。

这些自对话数据集使模型能够通过自我交互来构建多轮对话，正如Baize使用ChatGPT与不同种子进行交互以及UltraChat通过广泛的API驱动对话所展示的那样，这显著提高了对话质量并填补了训练数据可用性方面的关键空白。

基于真实用户交互的数据集。从真实用户交互中提取的数据集利用了与大语言模型（LLM）的真实对话交流，捕捉了多样和真实的输入，以增强模型应对现实场景的能力，其中Vicuna、WildChat和GenQA是该方法的典型示例。

• Vicuna。Vicuna [465] 在约70,000条来自ShareGPT公共API的用户共享对话上进行微调，通过将HTML转换为markdown、过滤低质量样本以及将长对话分割以适应模型上下文长度，确保为现实交互建模提供高质量的自监督学习（SFT）数据。
• WildChat. WildChat[479] 包含了涵盖多种语言和 Prompt 类型的100万真实用户与ChatGPT的交互，其中包括模糊请求和代码转换等独特交流，兼具作为强化学习（SFT）资源和分析用户行为工具的双重作用。
• GenQA. GenQA [480] 提供了一个庞大的SFT数据集，包含超过1000万条经过清洗和过滤的指令样本，这些样本完全由LLM生成，无需人工输入或复杂的 Pipeline ，通过快速生成合成数据来补充现有语料库，以解决覆盖范围不足的问题。

合成数据在成本、可扩展性和隐私方面的优势，被与人工标注数据相比在深度和真实性方面的潜在不足所抵消，这可能导致偏差传播和过度简化。对AI生成内容的依赖可能会使模型固有的错误持续存在，强调了将合成数据和人工生成数据相结合以增强大语言模型（LLM）的鲁棒性和在不同情境下的适用性的必要性。

9 应用

尽管预训练赋予了强大的基础能力，大语言模型（LLMs）在应用于特定领域时仍经常遇到持续的局限性，包括语境长度受限、幻觉倾向、推理能力不足以及固有的偏见。这些不足在现实世界的应用中具有关键意义，因为在这些应用中，精确性、可靠性和道德一致性至关重要。这些挑战引发了根本性的疑问：（1）如何系统地提升LLMs的性能以满足特定领域的需求？（2）有哪些策略可以有效地缓解应用场景中固有的实际障碍？后训练成为了一个关键解决方案，通过细化LLMs对特定领域术语和推理模式的识别，同时保留其广泛的能力，从而增强其适应性。本章阐述了后训练LLMs在专业、技术和交互领域的变革性应用，阐明了定制化的后训练方法如何应对这些挑战，并在不同情境中提升模型效用。

9.1 专业领域

法律助手。法律领域是一个利用训练后增强来赋予LLM（大语言模型）专业知识的引人入胜的领域，使其能够穿梭于复杂的法律知识体系，并应对法学中固有的多方面挑战。大量研究[485, 486, 487]已经探讨了LLM在该领域的应用，包括法律问答[488, 489]、判决预测[490, 491]、文档摘要[492, 493]以及更广泛的任务，如检索增强和司法推理[494, 495, 496]。经过训练的法律助手，如LawGPT[497]和Lawyer-LLaMA[498]所展示的，表现出卓越的专业能力，不仅能够为各种法律问题提供可靠的指导，还在专业资格考试中取得了成功，这证明了它们High-Level的解释和分析能力。多语言支持，如LexiLaw[499]和SAUL[500]等模型所展示的，将这一实用性扩展到了包括英语和中文在内的多种语言，扩大了其可及性。这些进步的核心是针对精选法律语料库的训练，如ChatLaw[501]，它将大量的法律文本整合到对话数据集中，使模型能够改进其推理和术语识别能力。

医疗与医学。经过训练显著提升了LLM在医疗和医学应用领域的表现，利用特定领域的数据以精确的方式满足临床和学术需求。在临床环境中，LLM促进了药物发现[502]、药物协同预测[503]和催化剂设计[504]等任务，诊断支持、病历生成和患者互动，而在学术界，它们在医学报告合成[505]和问答[506]方面表现出色，这些成就得益于定制化训练后的性能提升。例如，ChatMed[507]经过500,000份医疗咨询记录的优化，展示了增强的诊断和咨询准确性，而PULSE[508]通过4百万条指令在中医和通用领域进行微调，展示了卓越的多任务能力。这些模型通过利用经过训练后的适应性，嵌入细微的医疗知识，超越了通用模型，突显了定制化数据集在实现实用价值中的必要性。这些进步不仅改善了特定任务的成果，还为将LLM整合到医疗工作流程中铺平了道路，在医疗应用中，精确性和上下文相关性是不可或缺的，凸显了训练后对现实世界医疗应用的变革性影响。

金融与经济。在金融和经济领域，大语言模型（LLMs）在情感分析[509]、信息提取[510]和问答[511]等任务中展现出巨大的潜力，通过特定领域的训练增强其效能。虽然通用型LLMs提供了一个坚实的基础，但像FinGPT[512]和DISC-FinLLM[513]这样的专用模型在针对金融语料库进行后训练时表现出显著的改进，擅长需要细微理解市场动态和术语的任务。同样，玄元[514]利用广泛的金融数据集和先进的后训练技术来提高经济建模和预测的准确性，优于未经调整的基准。这些进展说明了后训练在使LLMs适应金融应用复杂需求中的关键作用，在这些应用中，对定量数据和定性洞察的精确解释至关重要，确保模型提供可靠、符合行业标准和预期的领域内输出。

移动 Agent 。大型多模态模型（LMMs）的演变催生了以LMM为基础的图形用户界面（GUI） Agent 的研究领域 [515]。该领域旨在开发能够在各种GUI环境中执行任务的AI助手，包括网络界面 [516, 517, 518, 519, 520]、个人计算平台 [521, 522, 523, 524, 525] 和移动设备 [526, 527, 528, 529, 530]。在移动环境中，一个研究轨迹通过工具集成 [526] 和额外的探索阶段 [527, 528] 来增强单个 Agent 的感知和推理能力。最近的研究进展通过使用多智能体系统进行决策和反思 [531, 529] 显示出巨大的潜力，从而提高了任务效率。值得注意的是，MobileAgent-E [532] 在 Agent 之间引入了层次结构，促进了稳健的长远规划，并提高了Low-Level动作的精确度。这些发展突显了多模态后训练策略在培养适应性强、效率高的复杂移动环境 Agent 中的变革性作用。

9.2 技术与逻辑推理

数学推理。大语言模型在数学推理方面展现出巨大的潜力，涵盖了代数运算、微积分和统计分析等领域，其中训练后对提升计算能力和类似人类的专业水平至关重要。GPT-4 [9] 在标准化数学测试中取得了高分，这一成就归因于其多样化的预训练语料库，但训练后进一步提升了这一能力。例如，DeepSeekMath [64] 利用专门的数学数据集和技术，如监督微调（SFT）和组相对策略优化（GRPO）[64]，来提高其推理精度，通过结构化的思维链（CoT）解决复杂问题。OpenAI的o1 [41] 通过强化学习（RL）推进这一领域，迭代优化推理策略，以在多步推导和证明中实现卓越的性能。这种通过训练后不断改进不仅提高了准确性，而且使大语言模型的输出与严格的数学逻辑相一致，使其在教育和研究环境中成为不可或缺的有力工具，在这些环境中High-Level推理至关重要。

关于大语言模型训练后代码生成的调查

训练后阶段彻底改变了代码生成领域，赋予了大语言模型在自动化编码、调试和文档编写方面的卓越能力，从而转变了软件开发工作流程。Codex [533]，在庞大的、多样化的代码库上训练，是GitHub Copilot *的基础，能够提供准确度惊人的实时编码辅助。像Code Llama [384]这样的专用模型进一步提升了这一能力，通过在特定编程数据集上的训练，帮助开发者跨越语言和框架的限制。OpenAI的o1 [41]将它的数学推理能力扩展到代码生成，生成高质量的、上下文感知的代码片段，其质量可与人类输出相媲美。当前的研究重点在于提升个性化、深化上下文理解和嵌入伦理保障，以减轻代码误用的风险，确保大语言模型在最大化生产力的同时，遵守技术领域的负责任开发原则。

9.3 理解与交互

推荐系统。大语言模型（LLMs）已成为推荐系统中的变革性力量，通过分析用户交互、产品描述和评论，以前所未有的粒度提供个性化建议[534, 535, 536]。训练后，它们增强了整合情感分析的能力，使得对内容和情感基调的理解更加细腻，这在GPT4[9]等模型以及LLaRA[537]和AgentRec[538]等专用系统中得到了体现。电子商务巨头如亚马逊和淘宝利用这些能力来处理评论情感、搜索 Query 和购买历史，从而优化客户偏好模型并高精度地预测兴趣[535]。除了对项目进行排名之外，经过训练的LLMs还参与对话式推荐、规划和内容生成，通过提供动态、上下文相关的交互来提升用户体验，这证明了训练后在将数据分析与实际应用之间架起桥梁的作用。

语音对话。经过训练的LLM重新定义了语音处理，将识别、合成和翻译提升到了前所未有的自然度和准确性水平[539]。这些模型处理诸如文本到语音[540]、文本到音频生成[541]和语音识别[542]等任务，为Amazon的Alexa、Apple的Siri和Alibaba的Tmall Genie等通用工具提供动力。Whisper[543]通过其高保真转录展示了这一进步，而GPT-4o[78]则引入了实时语音交互，无缝融合多模态输入。未来的发展趋势包括多语言翻译和个性化语音合成，通过后训练优化LLM以打破语言障碍，并根据个人用户档案定制响应，增强在全局环境中的人机交互的可达性和参与度。

视频理解。将大语言模型（LLMs）扩展到视频理解领域是一个重要的前沿领域，通过训练后，模型如Video-LLaMA [341] 能够进行视频字幕生成、摘要和内容分析，从而简化多媒体创作和理解的流程。Sora [544] 通过从文本 Prompt 生成复杂视频，进一步革新了这一领域，通过降低技术门槛和促进创新叙事，实现了内容生产的民主化。这些进步利用训练后的方法来适应视觉-时间数据，增强了LLMs的解释深度和在从教育到娱乐等应用中的实用性。然而，它们也引入了计算可扩展性、隐私保护和伦理治理方面的挑战，特别是在生成内容滥用方面。随着训练后方法的不断发展，解决这些问题对于确保在视频相关应用中的可持续、负责任部署至关重要，需要在创新与社会考虑之间取得平衡。

10 开放性问题与未来方向

在本节中，作者批判性地评估了大语言模型（LLMs）在训练后方法中的未解决挑战和潜在的发展路径，并将作者的分析置于OpenAI的o1 [41]和DeepSeek-R1 [28]发布所带来的变革性进步的背景下。这些模型利用大规模强化学习（RL），重新定义了推理基准，但它们的出现加剧了解决训练后技术持续局限性的紧迫性。以下子节阐述了六个关键未解决问题，每个问题都强调了其对于领域进展的关键重要性以及解决这些问题的迫切需求，同时提出了可行的策略以推动未来研究并确保LLMs在多样化应用中的负责任发展。

超越大规模强化学习推理增强。o1和DeepSeek-R1的引入标志着大语言模型推理能力的范式转变，利用广泛的强化学习框架，如RLHF和组相对策略优化（GRPO），在多步问题解决中实现了前所未有的准确性，例如数学证明和逻辑推导。然而，对二进制奖励信号和大量人类反馈的依赖暴露了一个关键限制：它们在复杂、开放性任务中无法有效泛化的能力，例如科学假设生成或在动态环境中的战略决策。这一差距亟待解决，因为对LLM在现实世界环境中模拟人类推理的需求日益增长，其重要性在于解锁它们作为自主知识 Agent 的潜力，超越当前基准。当前的强化学习方法在奖励Sparse性和缺乏对任务复杂性的适应性方面存在困难，需要创新框架。可行的解决方案包括开发多目标强化学习系统，该系统整合了自监督一致性检查（例如，验证推理步骤之间的逻辑一致性）和特定领域的先验知识，如数学公理或科学原理，以指导推理而无需详尽的人类标注[545, 546]。这样的进步可以减少对昂贵反馈循环的依赖，提高可扩展性，并使LLM能够应对未知的推理领域，DeepSeek-R1的冷启动强化学习创新使这一前景成为可能。

下一代LLMs的Post-Training可扩展性。随着LLMs的规模和复杂性不断增加，以下一代模型的参数密集型架构为例，Post-Training的可扩展性成为一个强大且紧迫的挑战。基于RL的方法资源密集型特性，如DeepSeek-R1的冷启动方法需要大量的计算基础设施，限制了资金充足的实体的可访问性，并引发了重大的可持续性问题，尤其是在多模态应用（例如视频分析）和实时系统（例如对话 Agent ）方面。这个问题至关重要，因为它可能会扩大资源丰富和资源受限的研究社区之间的差距，阻碍LLM发展的公平进步。虽然参数高效微调（PEFT）[92]可以减轻一些开销，但其性能在大规模数据集上通常会下降，突显了对可扩展替代方案的需求。可行的未来方向包括设计轻量级RL算法——可能适应GRPO以减少内存占用——联邦Post-Training框架，该框架将计算负载分配到去中心化网络，以及先进的蒸馏技术，在最小化资源需求的同时保留推理和适应性。如果这些解决方案得以实现，它们可以民主化Post-Training，与该领域对可持续和包容性创新的迫切需求相一致。

伦理对齐与RL驱动模型的偏差缓解。通过RL进行后训练，如o1的谨慎对齐策略所示，可能会通过强化训练数据集中嵌入的偏差（如HH-RLHF [104]或合成语料库）来放大伦理风险，鉴于LLMs在医疗诊断和司法决策等敏感领域的部署，这是一个极其紧迫的挑战。伦理对齐的动态可变性——在一个文化背景中公平可能构成另一个文化背景中的偏差——对实现普遍可信的LLMs构成了重大障碍，因此，确保公平和安全的AI系统，这一问题至关重要。当前的方法存在过度审查的风险，可能会损害实用性（例如，抑制创造性输出），或者存在校正不足，会持续有害的偏差（例如，种族或性别差异）。解决这个问题需要开发公平感知的RL目标，结合多利益相关者偏好模型（例如，汇总多样化的人类判断）和对抗性去偏技术，以在训练过程中中和数据集偏差。这些方法的可行性[550]得到了近年来解释性工具和多目标优化的进展的支持，这有助于在伦理稳健性和实际功能性之间实现平衡权衡，这是由o1的现实世界部署挑战所强调的必要性。

无缝多模态集成以实现整体推理。多模态大语言模型的发展轨迹，由o1推理增强和GPT-4o的合成能力[78]预示，凸显了对后训练方法的迫切需求，这些方法能够无缝集成文本、图像、音频和其他数据类型，以实现整体推理——这对于实时视频分析、增强现实和跨模态科学探究等应用至关重要。由于数据异质性和全面多模态训练语料库的稀缺，当前方法在实现稳健的跨模态对齐方面存在不足，限制了大语言模型在多样输入中连贯推理的能力。这一挑战的重要性在于其潜力可以解锁变革性应用，但其解决方案在没有可扩展框架的情况下仍然难以捉摸。DeepSeek-R1的冷启动强化学习提供了一个有希望的起点，表明统一的模态编码器（例如，能够将异质数据编码到共享的潜在空间中）和自适应地权衡模态贡献的动态强化学习策略可以弥合这一差距。未来的研究应优先考虑创建多模态基准和合成数据集，在像Magpie[481]这样的努力基础上推动进展，鉴于最近在多模态预训练和强化学习优化方面的进展，这是一个可行的目标。

上下文自适应可信度框架。在经过训练后的大语言模型（LLM）中，可信度被越来越认为是动态的、与上下文相关的属性，而不是静态的品质，这可以从o1在教育等敏感领域的谨慎输出与其在创意任务中的自由响应中看出。这种可变性——在安全需求（例如，在教育环境中避免错误信息）可能与实用性需求（例如，在写作中培养创造力）发生冲突的情况下——鉴于其对用户信任和LLM在多样化现实场景中的应用的至关重要性，构成了一个紧迫的挑战。当前的后训练方法通常过分重视安全，导致实用性与安全之间的权衡，降低了实际价值，或者未能适应特定上下文的需求，从而损害了可靠性。解决这个问题需要上下文敏感的强化学习（RL）模型，这些模型能够动态调整安全与实用性的权衡，利用实时用户反馈和可解释的安全指标（例如，生成输出的透明度得分）以确保适应性。这种方法[551]的可行性得到了自适应学习系统和实时监控的进步的支持，为在可信度与功能性之间取得平衡提供了途径，这对于LLM如o1扩展到高风险应用领域来说是一个迫切的需求。

可访问性和后训练创新的民主化。High-Level后训练方法的计算强度，以DeepSeek-R1的强化学习驱动方法为代表，限制了它们的应用范围，仅限于资源丰富的实体，这构成了一个紧迫的访问障碍，阻碍了较小研究社区和行业领域的创新（即促进AI公平进步的关键问题）。这种排他性不仅限制了贡献的多样性，还阻碍了该领域共同应对全局挑战的能力。民主化这些创新需要开发高效、开源的工具和框架，降低入门门槛而不牺牲质量，这一目标通过可扩展的PEFT适应强化学习[92]、共享后训练模型的协作平台（例如Hugging Face hub）以及类似于Magpie[481]的简化合成数据生成 Pipeline 得以实现。未来的努力应着重于优化这些解决方案，以实现广泛采用，确保后训练的变革潜力——以o1和DeepSeek-R1为例——超越精英机构，丰富更广泛的AI生态系统。

创造性智能与系统2思维。将创造性智能融入系统2推理是LLMs（大语言模型）演化中的一个新兴前沿领域，如[552]所强调。虽然像OpenAI的o1和DeepSeek的R1这样的推理LLMs在精心、逐步的逻辑分析方面表现出色——模仿系统2思维——但它们在创造性智能方面的能力，包括生成新想法、综合不同概念和灵活适应非结构化问题，仍处于未充分探索的状态。这一差距至关重要，因为创造性智能是艺术创作、科学发现和战略创新等领域类似人类问题解决的基础，在这些领域中，仅靠僵化的逻辑框架是不够的。这一挑战的紧迫性在于其将有可能将LLMs从分析工具提升为自主创造性 Agent ，这是向通用人工智能（AGI）转变的一次变革性飞跃。以下，作者概述这一开放性问题，并基于调查的见解提出未来方向。

11 结论

本文首次对训练后语言模型（PoLMs）进行了全面调查，系统地追踪了其从2018年ChatGPT的对齐起源到2025年DeepSeek-R1的推理里程碑的发展轨迹，并肯定了它们在推理精度、领域适应性和伦理完整性方面的变革性影响。作者评估了广泛的技术（即微调、对齐、推理、效率和集成与适应），综合了它们在专业、技术和交互领域的贡献，从法律分析到多模态理解。

作者的分析强调，PoLMs显著提升了LLM的能力，从最初的对齐创新发展到复杂的推理框架；然而，它也揭示了持续的挑战，包括偏见持续性、计算可扩展性和上下文相关的伦理对齐。这些发现，封装在一个新的分类法中，强调了将推理进步与效率和伦理要求相结合的必要性。作者得出结论，持续的跨学科合作、严格的方法论评估以及开发适应性、可扩展的框架对于实现LLM作为可靠、负责任工具的潜力至关重要。作为同类研究的先驱，这项工作巩固了近年来PoLMs的进展，并为未来研究奠定了坚实的知识基础，激励着培养能够巧妙地整合精度、伦理鲁棒性和灵活性的LLM，以满足科学和社会环境不断变化的需求。

THE END !

文章结束，感谢阅读。您的点赞，收藏，评论是我继续更新的动力。大家有推荐的公众号可以评论区留言，共同学习，一起进步。