Post-training Language Models,PoLMs-概况

综述

国内外14家机构的研究人员,用87页文章,对LLM的后训练方法(Post-training Language Models,PoLMs)进行了全面综述

该文章追溯了追踪从GPT-3(2020年)→ChatGPT(2022年)→DeepSeek-R1(2025年)的后训练进展,时间线如下:

2018-2021年(LLM基础时期) 
• BERT和GPT确立了预训练和微调范式。
• 基于Transformer的模型提升了文本生成和理解能力。

2022-2023年(后训练方法的崛起)
• 引入了RLHF(人类反馈强化学习)来实现伦理对齐。
• 指令调优(InstructGPT)改善了用户互动。
• 自我精炼技术实现了逐步推理。

2024-2025年(大规模推理模型时代 - LRMs) 
• DeepSeek-R1开创了冷启动强化学习,以提高推理能力。
• o1和o3模型强调了可扩展的、以对齐为驱动的训练。
• MoE(专家混合)模型通过参数选择,优化了效率。

接下来是重点部分,文章综述了五种后训练范式,包括:

1. 微调(Fine-tuning) - 调整参数以提升任务特定的性能。

- 监督微调(SFT):使用标注数据集进行任务特定学习。
- 自适应微调:包括指令调优、前缀调优和提示调优,以提高适应性。
- 强化微调(ReFT):利用强化学习来优化复杂推理。

2. 对齐(Alignment) - 确保模型遵循伦理和与人类一致的行为。

- 人类反馈强化学习(RLHF):使用人类标注的奖励模型以更好地对齐偏好。
- 直接偏好优化(DPO):通过人类反馈直接优化模型。
- AI反馈强化学习(RLAIF):使用AI生成的反馈扩展对齐训练。

3. 推理(Reasoning) - 提升多步骤推理和逻辑一致性。

- 思维链(CoT)提示:鼓励逐步推理。
- 自我精炼技术:模型迭代地优化自己的答案。
- 强化学习推理:将推理框架设为马尔可夫决策过程(MDP)。

4. 效率(Efficiency) - 优化计算资源并减少模型大小。

- 模型压缩:在不牺牲性能的情况下减小模型大小。
- 参数高效微调(PEFT):仅微调关键参数。(会降智)
- 知识蒸馏:将知识从大模型转移到小模型。

5. 集成与适应(Integration & Adaptation) - 扩展模型以处理多模态和领域特定任务。

- 多模态集成:结合文本、图像和音频处理。
- 检索增强生成(RAG):获取外部数据以改善上下文响应。
- 模型合并:将多个模型结合以提高性能。

此外,文章还综述了后训练依赖的数据集,以及后训练LLM的应用场景。

数据集: 后训练离不开高质量的数据集,具体包括——

- 人类标注数据集:用于微调的监督数据集。
- 蒸馏数据集:来自更大模型的派生数据(如Alpaca、Vicuna)。
- 合成数据集:由AI生成的数据,用于扩展模型能力。

应用:后训练LLMs已广泛应用于各个领域——

- 医疗:协助医疗诊断和研究。
- 法律:法律文档分析和欺诈检测。
- 编程:改善代码生成效果。
- 聊天:增强聊天机器人的情感能力。

大致文章翻译如下:

本文首次对PoLMs进行了全面综述,系统性地追溯了其在五大核心范式中的演变:微调(Fine-tuning),用于提升任务特定准确性;对齐(Alignment),确保伦理一致性与人类偏好的一致性;推理(Reasoning),尽管奖励设计存在挑战,但仍推动多步推理的发展;效率(Efficiency),在复杂性增加的背景下优化资源利用;以及集成与适应(Integration and Adaptation),在解决一致性问题的基础上扩展跨多模态能力。

从2018年ChatGPT的基础对齐策略到2025年DeepSeek-R1的创新推理进展,我们展示了PoLMs如何利用数据集来减少偏见、深化推理能力并增强领域适应性。本文的贡献包括:首次对PoLM演进的系统性综述、对技术和数据集进行分类的结构化分类法,以及强调LRMs在提升推理能力和领域灵活性中的战略议程。作为首篇涵盖如此广泛范围的综述,本文整合了近期PoLM的进展,并为未来研究建立了严谨的学术框架,推动LLMs在科学和社会应用中实现精准性、伦理鲁棒性和多功能性的卓越表现。

关键词:训练后优化、大语言模型、微调、对齐、推理、效率。

图片

1 引言

普遍认为,真正的智能赋予我们推理能力,使我们能够检验假设并为未来的可能性做好准备。
——Jean Khalfa,《什么是智能?》(1994)

语言模型(Language Models, LMs)[1, 2] 是旨在建模和生成人类语言的复杂计算框架。这些模型彻底改变了自然语言处理(Natural Language Processing, NLP)领域[3],使机器能够以接近人类认知的方式理解、生成和交互人类语言。与人类通过互动和语境环境自然习得语言能力不同,机器需要通过大量数据驱动的训练来发展类似的能力[4]。这带来了重要的研究挑战,因为使机器能够理解并生成人类语言,同时进行自然且语境适当的对话,不仅需要巨大的计算资源,还需要精细的模型开发方法[5, 6]。

大语言模型(Large Language Models, LLMs)的出现,如GPT-3 [7]、InstructGPT [8] 和 GPT-4 [9],标志着语言模型演化的一个变革阶段。这些模型以其广泛的参数化和先进的学习能力为特点,旨在捕捉复杂语言结构、语境关系以及海量数据集中的细微模式。这使得LLMs不仅能够预测后续词语,还能在翻译、问答和摘要等多种任务中生成连贯且语境相关的文本。LLMs的发展引发了广泛的学术兴趣[5, 6, 10],其研究可分为两个主要阶段:预训练训练后优化

预训练:预训练的概念源于计算机视觉(Computer Vision, CV)任务中的迁移学习[10]。其主要目标是利用大规模数据集开发通用模型,以便轻松微调以适应各种下游应用。预训练的一个显著优势是能够利用任何未标注的文本语料库,从而提供丰富的训练数据来源。然而,早期的静态预训练方法,如神经网络语言模型(Neural Network Language Models, NNLM)[11] 和 Word2vec [12],难以适应不同的文本语义环境,这促使了动态预训练技术的发展,如BERT [2] 和 XLNet [13]。BERT通过利用Transformer架构和在大规模未标注数据集上使用自注意力机制,有效解决了静态方法的局限性。这项研究确立了“预训练与微调”的学习范式,激发了后续众多研究,引入了多种架构,包括GPT-2 [14] 和 BART [15]。

训练后优化:训练后优化是指在模型完成预训练后采用的技术和方法,旨在针对特定任务或用户需求对模型进行优化和调整。随着GPT-3 [7](拥有1750亿参数)的发布,训练后优化领域迎来了显著的关注和创新。各种方法涌现以提升模型性能,包括微调(Fine-tuning)[16, 17],利用标注数据集或特定任务数据调整模型参数;对齐策略(Alignment Strategies)[18, 19, 20],优化模型以更好地与用户偏好对齐;知识适应技术(Knowledge Adaptation Techniques)[21, 22],使模型能够融入领域特定知识;以及推理改进(Reasoning Improvements)[23, 24],增强模型的逻辑推理和决策能力。这些技术统称为训练后语言模型(Post-training Language Models, PoLMs),并推动了如GPT-4 [9]、LLaMA-3 [25]、Gemini-2.0 [26] 和 Claude-3.5 [27] 等模型的发展,标志着LLM能力的显著进步。然而,训练后模型往往难以在不重新训练或大幅调整参数的情况下适应新任务,这使得PoLM的开发成为一个活跃的研究领域。

正如所强调的,预训练语言模型(Pre-trained Language Models, PLMs)主要旨在提供通用知识和能力,而PoLMs则专注于将这些模型适应特定任务和需求。一个显著的例子是最新的LLM——DeepSeek-R1 [28],它展示了PoLMs在增强推理能力、对齐用户偏好以及提高跨领域适应性方面的演化[29]。此外,开源LLMs(如LLaMA [30]、Gemma [31] 和 Nemotron [32])和领域特定大规模数据集(如PromptSource [33] 和 Flan [34])的日益普及,正在推动学术界和工业界开发PoLMs的趋势。这一趋势凸显了在PoLM领域中定制化适应的重要性。

在现有文献中,PLMs已被广泛讨论和综述[10, 35, 36, 37],而PoLMs则很少被系统性地回顾。为了推动这些技术的发展,有必要彻底审视现有研究,以识别关键挑战、差距和进一步优化的机会。本综述旨在填补这一空白,为训练后优化的研究提供一个结构化框架。如图1所示,它探讨了训练后优化的多个阶段,特别关注从ChatGPT到DeepSeek所采用的技术。这些技术涵盖了广泛的方法论,包括微调、LLM对齐、推理增强和效率改进。图中的蓝色部分特别突出了DeepSeek所采用的一系列训练后优化方法,强调了其在适应用户偏好和领域特定需求方面的创新策略。

1.1 主要贡献

本文是首次对PoLMs进行全面综述,系统性地梳理了该领域的最新进展。以往的综述通常集中于LLM开发的特定方面,如偏好对齐[38]、参数高效微调[39] 和LLM的基础技术[40],而本综述则采取整体视角,全面回顾了训练后优化中常用的核心技术,并对其进行了系统分类。此外,我们还探讨了与这些方法相关的数据集和实际应用(如图2所示),并指出了未来研究的开放挑战和潜在方向。本综述的主要贡献如下:

  • 全面的历史综述:我们首次对PoLMs进行了深入的历史综述,追溯了从ChatGPT的初始人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF)到DeepSeek-R1的创新冷启动强化学习方法的演变。这一综述涵盖了关键技术(如微调、对齐、推理、效率和集成与适应),分析了它们的发展及相关挑战,如计算复杂性和伦理问题。通过将这些进展呈现为一个连贯的叙述,并辅以重要参考文献,我们为研究人员提供了近年来训练后优化演变的全面概述,为该领域奠定了坚实基础。

  • 结构化分类与框架:我们引入了一个结构化分类法(如图2所示),将训练后优化方法分为五大类别,并将数据集组织为七种类型,同时将应用框架划分为专业、技术和交互领域。这一框架阐明了这些方法之间的相互关系及其实际意义,为研究发展提供了系统性视角。通过提供明确的分类和分析见解,我们提高了新手和专家对训练后优化研究的可访问性和理解度,为应对其复杂性提供了全面指南。

  • 未来方向:我们强调了新兴趋势,特别是大推理模型(Large Reasoning Models, LRMs)的兴起,如o1 [41] 和 DeepSeek-R1 [28],它们利用大规模强化学习推动推理能力的边界。我们指出,持续的进步对于进一步增强推理能力和领域适应性至关重要。我们的分析识别了关键挑战,包括可扩展性限制、伦理对齐风险和多模态集成障碍。我们提出了研究路径,如自适应强化学习框架和公平感知优化。这些方向旨在推动训练后优化的发展,确保LLMs实现更高的精确性和可信度,以满足未来需求。

1.2 组织结构

本综述系统地组织,以全面探讨训练后语言模型(PoLMs),涵盖其历史演变、方法论、数据集、应用和未来发展方向。第2节提供了PoLMs的历史概述。第3节探讨了微调,包括监督微调(Supervised Fine-Tuning, SFT)(第3.1节)和强化微调(Reinforcement Fine-Tuning, RFT)(第3.3节)。第4节讨论了对齐,涵盖人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF)(第4.1节)、AI反馈强化学习(Reinforcement Learning from AI Feedback, RLAIF)(第4.2节)和直接偏好优化(Direct Preference Optimization, DPO)(第4.3节)。第5节聚焦推理,包括自我优化方法(第5.1节)和推理强化学习(第5.2节)。第6节调查了效率提升方法,包括模型压缩(第6.1节)、参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)(第6.2节)和知识蒸馏(第6.3节)。第7节研究了集成与适应,涵盖多模态方法、领域适应和模型合并。第8节回顾了训练后优化中使用的数据集。第9节探讨了LLM的应用。第10节评估了开放问题和未来方向。最后,第11节总结了全文并展望了研究前景。

图片

PoLMs的历史

大语言模型(LLMs)的进步构成了自然语言处理(NLP)领域的关键篇章,而训练后优化方法则是其从通用预训练架构演变为专用任务适应系统的关键催化剂。本节梳理了训练后语言模型(Post-training Language Models, PoLMs)的历史轨迹,追溯了从BERT [2] 和 GPT [1] 等基础预训练里程碑到当代模型(如o1 [41] 和 DeepSeek-R1 [28])所体现的复杂训练后范式的发展。如图3所示,这一进展反映了从建立广泛语言能力到增强任务特定适应性、伦理对齐、推理复杂性和多模态集成的转变,标志着LLM能力的变革性演进。

现代PoLMs的历史起点与2018年的预训练革命相吻合,BERT [2] 和 GPT [1] 的发布重新定义了NLP的基准。BERT的双向自编码框架利用Transformer架构和自注意力机制,在捕捉上下文依赖关系(如问答任务)方面表现出色,而GPT的自回归设计则优先考虑生成连贯性,为文本生成设定了先例。这些模型确立了“预训练与微调”范式,随后在2019年通过T5 [42] 进行了改进,T5将多种任务统一到文本到文本的框架下,促进了多任务学习,并为训练后优化奠定了坚实基础。

从2020年开始,PoLMs的格局发生了显著变化,这主要是由于需要高效地将预训练模型适应到数据有限的各种任务中。早期的创新如前缀调优(prefix-tuning)[43] 和提示调优(prompt-tuning)[44] 引入了轻量级适应策略,通过修改模型输入而非重新训练整个架构来实现多任务灵活性,从而节省计算资源并扩大适用性。这一时期还见证了以用户为中心的优化的关键转变,2021年人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF)[45] 的出现,利用人类评估使模型输出与主观偏好对齐,增强了对话场景中的实用性。到2022年,RLHF通过采用近端策略优化(Proximal Policy Optimization, PPO)[46] 趋于成熟,提升了对齐稳定性并减少了对噪声反馈的过拟合。2022年底ChatGPT [9] 的发布巩固了这些进展,展示了RLHF在创建响应迅速、用户对齐的LLMs中的变革潜力,并推动了PoLMs研究的蓬勃发展。与此同时,思维链(Chain-of-Thought, CoT)提示[47] 作为一种推理增强策略出现,鼓励模型在复杂任务中表达中间步骤,从而提高了透明度和准确性,特别是在逻辑推理和问题解决领域。

2022年至2024年间,PoLMs多样化发展,以应对领域特异性、伦理鲁棒性和多模态集成,反映了LLM优化的日益精细化。领域适应技术,如检索增强生成(Retrieval-Augmented Generation, RAG)[48],通过集成外部知识库,为专业领域生成上下文丰富的输出,而无需完全重新训练——这对于需要最新信息的专业应用至关重要。伦理对齐努力也得到加强,2023年直接偏好优化(Direct Preference Optimization, DPO)[49] 通过直接优化模型输出以符合人类偏好,绕过了中间奖励建模,提高了效率和鲁棒性。同时,多模态能力的追求也取得了进展,PaLM-E [50] 和 Flamingo [51] 等模型率先实现了视觉-语言集成,随后BLIP-2 [52] 和 LLaVA [53] 将这些努力扩展到医学成像等更广泛的领域。效率创新与这些发展并行,特别是通过专家混合(Mixture of Experts, MoE)架构;2022年谷歌的Switch-C Transformer [54] 引入了2048个专家之间1.6万亿参数的稀疏激活,而Mixtral [55] 则进一步优化了这一范式,平衡了可扩展性和性能。这一时期的推理增强,如自我对弈(self-play)[56] 和蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)与CoT的集成[57],通过模拟迭代推理路径进一步增强了LLMs的决策能力,为专注于高级推理的模型奠定了基础。

专家混合(MoE)模型的兴起标志着架构上的重大进步,它们通过动态激活选择性参数子集,优化了计算效率,同时适应了大规模参数扩展。这一范式由2022年谷歌的Switch-C Transformer [54] 开创,其1.6万亿参数分布在2048个专家之间,平衡了资源需求与性能提升。随后的迭代,如Mixtral [55] 和 DeepSeek V2.5 [58](后者利用2360亿总参数,其中210亿在160个专家之间激活),进一步优化了这一框架,在LMSYS基准测试中取得了最先进的成果,证明了稀疏MoE架构在可扩展性和效能上可与密集模型媲美。这些发展标志着向效率导向的PoLMs的转变,使LLMs能够以更低的计算开销处理复杂任务,这是扩大其实际应用的关键一步。

到2025年,DeepSeek-R1 [28] 成为PoLMs创新的里程碑,它摒弃了传统的监督微调(Supervised Fine-Tuning, SFT)依赖,转而采用思维链(CoT)推理和探索性强化学习策略。以DeepSeek-R1-Zero为例,该模型集成了自我验证、反思和扩展的CoT生成,在开放研究范式中验证了RL驱动的推理激励,并引入了蒸馏技术[28] 将复杂的推理模式从大型架构转移到小型架构中。这种方法不仅在与独立RL训练相比中表现出优越性能,还预示着LLMs的可扩展、以推理为中心的范式,有望解决训练后方法中计算效率和任务适应性的持续挑战。

### Prompt-based Combinatorial Optimization Using Pre-Trained Language Models Prompt-based combinatorial optimization leverages pre-trained language models (LLMs) to solve complex optimization problems by encoding the problem as a textual prompt and using the model's generative capabilities to produce solutions. This approach has gained traction due to the versatility of LLMs in understanding structured inputs and generating structured outputs. #### Conceptual Framework Pre-trained language models are inherently designed to predict missing parts of text sequences, which aligns with the goal of combinatorial optimization: finding an optimal solution from a set of possible configurations. By framing the optimization problem as a natural language task, researchers have demonstrated that LLMs can approximate solutions effectively[^2]. The key lies in designing appropriate prompts that encode the problem constraints and objectives into a format understandable by the model. #### Implementation Approach To implement prompt-based combinatorial optimization, one must carefully design the input prompt to guide the model toward valid solutions. Below is an outline of the process: 1. **Problem Encoding**: Convert the combinatorial optimization problem into a textual representation. For example, a traveling salesman problem (TSP) might be framed as "Find the shortest route visiting cities A, B, C, and D exactly once." 2. **Prompt Design**: Construct a prompt that includes both the problem description and any necessary constraints. This step is crucial, as poorly designed prompts may lead to suboptimal or invalid solutions. 3. **Model Inference**: Use the pre-trained language model to generate potential solutions based on the prompt. Fine-tuning the model for specific tasks can further enhance performance[^3]. 4. **Post-Processing**: Validate and refine the generated solutions to ensure they meet all problem constraints. This step often involves integrating domain-specific knowledge or heuristics. #### Example Code Below is an example implementation using a hypothetical pre-trained language model to solve a simple combinatorial optimization problem: ```python import openai def solve_combinatorial_optimization(prompt): # Set up OpenAI API key openai.api_key = "your-api-key" # Generate response using GPT-3 response = openai.Completion.create( engine="text-davinci-003", prompt=prompt, max_tokens=100, temperature=0.7, n=1 ) return response.choices[0].text.strip() # Define the combinatorial optimization problem as a prompt problem_prompt = ( "You are tasked with solving the following optimization problem:\n" "Minimize the total cost of assigning workers to tasks.\n" "Each worker can only be assigned to one task, and each task must be assigned to exactly one worker.\n" "The cost matrix is as follows:\n" "[[90, 75, 75, 80], [35, 85, 55, 65], [125, 95, 90, 105], [45, 110, 95, 115]]\n" "Provide the optimal assignment of workers to tasks and the total minimum cost." ) # Solve the problem solution = solve_combinatorial_optimization(problem_prompt) print("Solution:", solution) ``` This code demonstrates how a combinatorial optimization problem can be solved by encoding it as a natural language prompt and leveraging a pre-trained language model like GPT-3 to generate solutions. #### Research Insights Research into prompt-based combinatorial optimization highlights the importance of prompt engineering and model fine-tuning. Studies have shown that larger models with extensive pre-training perform better in terms of accuracy and efficiency. Additionally, incorporating domain-specific knowledge into the prompt design can significantly improve results. #### Limitations While promising, this approach has limitations: - **Scalability**: Large-scale optimization problems may exceed the context window size of current LLMs. - **Accuracy**: Solutions generated by LLMs may not always be optimal or feasible without post-processing. - **Resource Intensity**: Running inference on large models can be computationally expensive. Despite these challenges, prompt-based combinatorial optimization represents a novel and powerful paradigm for solving complex problems using pre-trained language models.
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值