SFT+RL双阶训练突破LLM自我监督!人大DeepCritic实现AI批判自主进化

img

论文标题

DeepCritic: Deliberate Critique with Large Language Models

论文链接:

https://arxiv.org/abs/2505.00662

代码链接:

https://github.com/RUCBM/DeepCritic

01.问题背景

大语言模型(LLM)通过大规模地学习人类数据并从人类监督反馈中不断进化,在许多任务上展现出卓越的性能。然而,随着模型智能的不断增强,依赖人工监督的方式也面临着越来越高饿成本和难度。如何以更高效、可扩展的方式对日益进化的模型进行监督,成为非常重要且亟待解决的关键问题。

一种具有潜力的解决路径是利用大语言模型自身作为批判家(LLM Critics)对模型的生成内容进行评判和反馈。LLM critics 通过生成批评意见,帮助改进模型输出,从而有望替代人工反馈工作,实现 LLM 自动监督与持续优化。

但是一些工作发现,现有 LLM critics 在处理例如数学推理等复杂领域时,表现仍较为落后。

作者分析了其中原因,发现现有 LLM critics 在批判时缺乏批判性思维,常常只会按照原始推理步骤中的逻辑进行简单的重复验证,而非以质疑的角度进行批判和深入分析,这使得其经常受到原始推理步骤中的错误误导而不能发现问题(见图 1)。

这个缺陷导致两个核心问题:一是判断结果准确率低下;二是提供的批判信息缺乏指导性,难以为生成模型提供有效的改正和优化方向。

img

▲ 图1. 现有的 LLM critics 只能生成粗浅、表面的批判,导致正确率低下。本工作训练的批判模型能够结合迭代式评判多角度验证以及元批判等机制,在做出判断前进行深思熟虑的推理,生成详细的反馈和准确的判断。

本工作旨在解决当前 LLM critics 在数学推理任务上生成的批判过度表面、肤浅的问题,提出了 DeepCritic 框架,通过监督微调(SFT)和强化学习(RL)两阶段训练得到深思熟虑的 LLM critics。

基于 Qwen2.5-7B-Instruct 训练得到的 DeepCritic-7B-RL 模型在不同数学错误识别基准上显著超过了当前的 LLM critics,包括 GPT-4o,Qwen2.5-72B-Instruct,和同规模的 DeepSeek-R1-Distill models。DeepCritic-7B-RL 还可以分别作为 verifier 和 critic 进一步提升生成模型的 test-time scaling 结果。

02.两阶段训练增强 LLM 批判能力

2.1 监督微调教会 LLM 深思熟虑地批判

在第一阶段,为了教会当前 LLM 深度批判的行为和格式,作者首先从头构造了长思维链形式的批判数据,进行监督微调(SFT)使 LLM 具备初步的深度批判能力。

具体地,作者提出了一种分阶段、逐步增强的批判生成流程,通过引导模型进行更深层次的思考与自我反思,提升其判断准确性与反馈质量。生成方法包括以下三个关键步骤:

初始批判生成:首先,从人工标注的 PRM800K 中选取一小部分带有人工标注步骤正确性的问题和步骤,调用大模型(Qwen2.5-72B-Instruct)依次对每一步推理过程单独批判,生成对于每一步的初始批判。

深度批判生成:然而,正如上述所示,现有大模型的直接批判往往容易流于表面,缺乏真正的批判性思维。

所以,这一步骤中给定问题,推理步骤和初始批判,再次引导模型从不同角度和不同验证方法重新评估和批判,或对初始批判本身进行重新审视,发现初始批判没有找到的问题或者初始批判本身存在的问题,形成更有深度和反思性的元批判,有效纠正初始误判。

最终批判融合和监督微调:最后,留下判断结果与人工标注一致的所有深度批判和对应的初始批判,将它们糅合成一条长思维链,形成每一步更为成熟、细致的最终批判文本。

并把针对每一步的最终批判拼接得到对于整条解答的深度批判文本,以此共构建了约 4.5K 条高质量的监督微调数据。通过对基础模型(Qwen2.5-7B-Instruct)进行监督微调,最终得到具备多轮评估、多角度验证和元批评能力的初始评论模型 DeepCritic-7B-SFT。

img

▲ 图2. 两阶段训练流程示意图

2.2 强化学习激励 LLM 深思熟虑地批判

在完成了第一阶段的有监督微调,构建出具备初步深度批判能力的模型后,第二阶段的目标是进一步激发模型的潜力,使其在评判复杂推理过程中表现得更加精准和灵活。为此,作者采用强化学习(RL)对模型进行进一步训练。

强化学习阶段的关键在于高质量数据的获取。作者分别在两种不同的数据来源设定下探索 RL 训练:

人工标注数据:直接使用已有的人工标注数据集 PRM800K,这是最理想的数据来源,具备可靠的标签信息。

自动构造数据:考虑到人工标注成本逐渐高昂、不可持续的现实,作者还采用了一个无需人工标注的数据自动构造流程。

具体来说,从 NuminaMath-CoT 中抽取部分题目,使用 Qwen2.5-1.5B/3B/7B-Instruct 为每道题生成多个解题路径,并过滤掉太简单或者太难的题目。对于剩下的解题路径,通过蒙特卡洛采样估计法,评估每一步推理的正确性:

(1)对错误解题路径中错误步骤的识别:将解答在某一步截断,并让生成器模型(Qwen2.5-7B-Instruct)从该步开始多次展开后续步骤。如果该步及其后所有推理步骤在所有展开中都错误,且该步之前的所有步骤的各自多数展开能得到正确答案,则将该步标记为第一个错误步骤

(2)对正确解题路径的验证:对于最终答案正确的解,也应用相同的策略来检测其中是否存在错误的中间步骤,确保标签精确和样本质量。

最终将 DeepCritic-7B-SFT 模型在 40.7K PRM800K 样本上或者 14.2K 自动构建样本上分别训练得到模型 DeepCritic-7B-RL-PRM800K 和 DeepCritic-7B-RL-Numina。

03.实验效果

3.1 数学批判任务主实验结果

img

▲ 表1. 各模型在不同数学批判任务基准数据集上的表现。指标是在错误推理路径中找到第一个出错步骤的准确率和对正确路径判定成功的准确率之间的 F1 值。

作者在多个数学评估基准上系统评估了不同模型的批判能力,结果见表1。主要实验结论如下:

(1)基础指令微调模型批判能力普遍较弱,尤其是小模型;随着模型规模提升,批判能力也相应增强。

(2)DeepSeek-R1-Distill 系列模型因其数学推理能力得到显著增强,在数学批判任务中的表现也取得了提升。但该系列模型往往倾向于利用自身的解题能力来辅助判断推理步骤对错,并没有真正学会做评估和批判,因此在面对难题(如 Omni-Math)时 F1 得分仍相对较低。

(3)通过在精心构造的 4.5K 批判数据上微调后的 DeepCritic-7B-SFT 模型在平均 F1 得分上相较于基础模型 Qwen2.5-7B-Instruct 从 34.1 提升到 54.1,提升幅度达 20 个百分点。这证明构造的深思熟虑批判数据具有极高质量,也验证了“教模型进行深思熟虑的批判”这一动机的有效性。

(4)在强化学习阶段,仅使用 14.2K 条自动构造的数据,DeepCritic-7B-RL-Numina 模型的 F1 分数又提升到了 63.5,进一步说明自动构造数据是可行且有效的,有望实现 LLM 批判能力的自动化、可扩展提升

(5)当使用高质量大规模标注数据进行强化学习后,衍生模型 DeepCritic-7B-RL-PRM800K 在 6 个评测子集中的 5 个上击败包括 GPT-4o 和同规模 DeepSeek-R1-Distill 系列在内的所有基线模型,取得最佳综合表现

3.2 帮助生成模型在推理阶段实现更好的 Test-Time Scaling 结果

批判模型能通过扩展生成模型在测试时的计算(Test-Time Scaling),提升生成模型的效果。

一方面,批判模型可以充当验证器(verifier),判断生成模型采样出的回答是否正确。通过滤除被识别为错误的回答,可以获得更准确的 majority voting 结果,提高最终解答的准确率。

另一方面,生成模型也可以根据批判模型的反馈对潜在错误的回答进行修正,通过不断的“批评—修正”过程进一步逼近正确答案。

作者选用了两个不同规模的生成器进行实验:Qwen2.5-7B-Instruct 和 Qwen2.5-72B-Instruct,并在 MATH500 和 AIME2024-2025 两个数据集上进行评估。

作者选取了DeepCritic-7B-RL-PRM800K 作为实验对象(简写为DeepCritic-7B-RL)。基线模型为 Qwen2.5-7B-Instruct 和 DeepSeek-R1-Distill-Qwen-7B(简写为 DS-R1-Distill-Qwen-7B)。

img

▲ 图3. 用不同模型充当 verifier 后生成模型在 MATH500 和 AIME24-25 上的 verified majority voting 结果。

批判模型充当验证器的实验结果如图 3 所示。可以观察到,当批判模型本身能力较弱时(如 Qwen2.5-7B-Instruct),将其作为验证器参与多数投票反而可能适得其反,降低整体性能。

相比之下,DeepCritic 模型在大多数采样设置中能够更有效地提升生成器的多数投票性能,带来更明显的改进。

img

▲ 表2. 基于批判内容的修正结果。“w→c” 表示经过判断与修正后,原本错误的解答变为正确的比例;“c→w” 表示相反的情况,即原本正确的解答变为错误的比例。“Acc.” 表示在所有测试样本上的平均准确率。

生成模型根据批判模型提供的反馈做修正的结果如表 2 所示。即使强调了在识别出第一个出错步骤后就停止批判,DeepSeek-R1-Distill-Qwen-7B 仍旧经常批判到结束并给出正确答案(即其指令遵循能力较差)。

这一问题会导致生成器的修正结果受到 DS-R1-Distill-Qwen-7B 自身解题能力的较大影响,存在偏差。因此,将其结果单独列出,仅作为参考。

可以看到,DeepCritic-7B-RL 模型能够有效辅助生成器进行错误修正,通过提供更详细的反馈显著提升生成器的最终性能。值得注意的是,7B 批判模型同样能够监督并纠正 72B 生成模型的输出,展现出弱至强监督的潜力。

04.案例分析

以下关于 DeepCritic-7B-SFT 和 DeepCritic-7B-RL 的推理案例展示了 DeepCritic 系列模型在执行批判任务时具备了多角度验证元批判自我反思与纠错等关键推理和评估能力。

img

▲ 图4. DeepCritic-7B-SFT 的案例分析

img

▲ 图5. DeepCritic-7B-RL-PRM800K 的案例分析

05.未来展望

本工作初步验证了通过精心构造的深思熟虑批判数据进行监督微调结合强化学习,可以有效提升大语言模型在数学领域的批判与监督能力。

本工作为实现更广泛、更可靠、可扩展的AI监督机制提供新的启示。但是仍有许多值得探索的方向。例如,现阶段的研究聚焦于数学推理场景,尝试将该批判框架拓展至代码、开放领域等更多任务场景,以探索其通用性与跨领域潜力,是其中一个有趣的未来研究方向。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

在这里插入图片描述

### DeepSeek 使用强化学习替代监督微调 DeepSeek 的训练策略旨在减少传统监督微调段,转而采用更高效的强化学习方法来优化模型性能。这种方法不仅能够加速整个训练流程,还能提高最终生成内容的质量。 #### 强化学习框架设计 在 DeepSeek 中,通过构建特定的奖励函数和环境设置,使得模型能够在交互过程中不断调整参数以获得更高的回报值。这种方式允许模型直接从环境中获取反馈信号,从而指导其行为决策过程[^1]。 具体来说,在不经过传统的有标注数据集上的迭代更新情况下: - **定义任务目标**:明确希望达到的效果,比如对话系统的连贯性和准确性; - **设定即时奖励机制**:对于每次输出给予相应的分数评价; - **长期累积收益最大化原则下进行探索与利用之间的平衡操作** 这种基于试错的学习模式让机器可以自主发现最优解法而不依赖于预先准备好的标准答案集合。 #### 实现细节 为了支持上述理念的实际应用,技术层面采取了一系列措施确保方案可行有效: - 利用了类似于 `AutoModelForCausalLM` 这样的高级接口加载基础架构,并对其进行必要的自定义配置以便适应新的训练范式[^2]; ```python from transformers import AutoModelForCausalLM, BitsAndBytesConfig base_model = "your_base_model_name" bnb_config = BitsAndBytesConfig(...) model = AutoModelForCausalLM.from_pretrained( base_model, quantization_config=bnb_config, device_map="auto", ) ``` - 结合 GLM 架构特点引入了混合型注意力机制,既保留了一定程度的历史上下文感知能力又不会造成未来信息泄露问题[^3]: ```python class CustomAttentionLayer(nn.Module): def __init__(self): super().__init__() def forward(self, hidden_states, attention_mask=None): # Implement custom logic here to switch between uni-directional and bi-directional attention based on task requirements. pass ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值