【喂饭教程】一文详解Qwen3-RL训练过程详解,零基础小白收藏这一篇就够了!!

前言

Qwen2.5的RL训练过程主要分为两阶段,第一阶段为离线阶段做DPO,第二阶段为在线阶段使用偏好RM做GRPO,两阶段RL主要是针对通用场景来做的。

不同于Qwen2.5,过去一段时间基于RL推理的大火为后训练带来了新的方向,Qwen3也着重在后训练阶段提升模型的推理能力,并且一个关键创新为将思考模式和非思考模型集成到一个统一的框架中,这使得模型既拥有拥有复杂多步骤推理的能力(例如QwQ-32B),也能够基于上下文进行快速响应(例如GPT-4o)。

Qwen3是如何实现以上功能的呢?一图以蔽之

图片

Qwen3-235B-A22B和Qwen3-32B使用四阶段的训练过程,前两个阶段侧重于提升模型的“思考”能力。接下来的两个阶段旨在将 “非思考” 功能集成到模型中。而Qwen3-30B及以下尺寸的模型采用蒸馏的方式,提升模型的Pass@1分数。接下来详细解读一下其四阶段的训练过程。

阶段一:冷启动训练

冷启动数据集主要覆盖数学、代码、逻辑推理、和STEM问题,这部分数据需要经过严格的筛选,否则冷启动训练后模型的通用能力可能会劣化,因此报告中说明他们对query和response分别都进行了筛选。

1.Query筛选:目的是筛选出过于简单和难于验证的问题。前者使用Qwen2.5-72B-Instruct进行推理,如果不使用CoT即可回答正确,那么对这种query进行筛除;后者同样使用Qwen2.5-72B-Instruct,识别包含多个子问题和要求生成一般文本内容的问题,对这种query也进行筛除。

2.Response筛选:使用QwQ-32B为每个query生成N个候选回复。对于QwQ-32B无法回答正确的问题,会人工再评估一遍回复的准确性;对于多个回答均正确的问题,会使用以下6个准则进一步筛选:

  • • (1)最终答案错误
  • • (2)包含大量重复
  • • (3)在没有充分推理的情况下明确猜测答案
  • • (4)think和summary内容不一致
  • • (5)包含多语种或风格跳变
  • • (6)和验证集过于相似,有以上问题的回答也会被筛除。

Response筛除的目的是在模型中注入基础推理模式,但并不强调推理性能,这样保证模型的推理潜力不受限制且不过拟合,为第二阶段RL打下基础。

报告中未提及冷启动阶段的数据量。

阶段二:RL推理能力训练

RL训练Query遵循以下4个原则进行筛选:

  • • (1)未在冷启动阶段使用
  • • (2)对于冷启动模型来说是可学习的
  • • (3)需要有一定的难度
  • • (4)包含多个领域。

满足以上四点后选择了3995个query-verifier对(和冷启动的数据覆盖范围应该是一样的,但是这个数据量真的好少啊),在GRPO训练过程中,通过控制模型的熵,对exploration和exploitation进行了平衡,从而实现平稳的训练。

阶段三:思考模式融合

这一阶段是通过SFT的方式对阶段二得到的模型进行微调,融合“思考”和“非思考”模式的推理。为了保证阶段二性能不受影响,这里“思考”训练数据采用阶段二模型在阶段一query数据上做拒绝采样得到;“非思考”数据涵盖各种任务,包括编码、数学、指令遵循、多语言任务、创意写作、问答和角色扮演。

两种模式使用/think和/no_think标志进行区分,注意“非思考模式”也有开始和结束的标志符,只是其思考过程置为空。并且在训练过程中,会针对多轮对话进行“思考”和“非思考”模式的混合训练。

图片

阶段四:通用RL

这一阶段旨在提升模型在不同场景下的通用能力和稳定性,涵盖了 20 多个不同的任务,针对不同任务有针对性的评分标准及奖励模型。目的在于提升以下多种任务下的能力:

  • • (1)指令跟随任务
  • • (2)融合思考模式的格式跟随任务
  • • (3)开放任务下与人类偏好对齐
  • • (4)多轮对话下的长期决策任务
  • • (5)定制化任务如搜索等

具体地,他们采用三种不同的奖励:

  • Rule-based reward:主要用在推理任务、指令跟随、格式跟随任务上
  • Model-based Reward with Reference Answer:提供每个query的参考答案并提示 Qwen2.5-72B-Instruct 根据参考答案对response进行评分。这种方法无需严格的格式设置,进一步避免因为rule-based reward漏检造成的hacking问题
  • Model-based Reward without Reference Answer:即基于人类偏好训练的BT model,用在通用任务上,提高模型的参与度和有用性

Strong-to-Weak Distillation

主要是针对小尺寸模型的蒸馏训练,也分成两阶段:

1.Off-policy Distillation:使用 /think 和 /no_think 模式生成的教师模型(Qwen3-32B or Qwen3-235B-A22B)的输出结合起来进行蒸馏。这有助于提升小模型基本的推理能力和在不同思维模式之间切换的能力

2.On-policy Distillation:学生模型对query进行采样,在 /think 或 /no think 模式下生成回复。然后,通过将回复的logits 与教师模型的 logits对齐来微调学生模型,以最小化 KL 散度。

后训练效果评估

具体的测试分数就不一一展示了,参考原文,主要包括通用任务、对齐任务、数学、文本推理、Agent、代码、多语种测试任务。报告中展示了几个结论:

  • • 旗舰MoE模型Qwen3-235B-A22B 在开源模型中,无论是思考模式还是非思考模式,都展示了最先进的整体性能,超越了 DeepSeek-R1 和 DeepSeek-V3 等开源模型。Qwen3-235B-A22B 还与 OpenAI-o1、Gemini2.5-Pro 和 GPT-4o 等闭源模型展示出了很强的竞争力。
  • • 旗舰Dense模型 Qwen3-32B 在大多数基准测试中都优于之前的最强推理模型 QwQ-32B,并且与闭源 OpenAI-o3mini 的性能相当,。Qwen3-32B 在非思考模式下的性能也非常出色,超越了Qwen2.5-72B-Instruct。
  • • 轻量级模型,包括 Qwen3-30B-A3B、Qwen3-14B 和其他较小的Dense模型,始终优于参数数量接近或较大的开源模型,证明了 Strong-to-Weak Distillation 方法的成功。

报告里还讨论了几个有趣的发现,首先是之前在推理长度上的scaling law,从下图中可以看到,Qwen3-235B-A22B 随着输出长度的增加(1K->32K)在AIME、LiveCodeBench、GPQA Diamond测试集上性能都有所提升。

图片

其次,小模型直接从教师模型进行蒸馏比直接做强化学习的性能要好,同时所需的时间也更少。

图片

另外,他们还做了阶段三和阶段四的消融实验,这里还引入了一些验证幻觉的任务、控制长度的写作任务、混合思考模式下的多轮对话任务、工具调用任务,结果如下图。可以看出,阶段三提升了模型在“思考”模式下的指令跟随、格式跟随能力;第四阶段则进一步提升了这种能力;然而对于知识、STEM、数学和编码任务,阶段三、四的训练并没有带来显着的改进。

相比之下,对于像 AIME’24 和 LiveCodeBench 这样难度较高的任务,“思考”模式下的性能实际上会下降。推测这种退化是由于模型在更广泛的通用任务上进行了训练,这可能会损害模型处理复杂问题的专业能力,他们认为这种退化在性能的权衡下是可接受的范围。

图片

最后

为什么要学AI大模型

当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!

DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

AI大模型系统学习路线

在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

img

但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。

AI大模型入门到实战的视频教程+项目包

看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径

在这里插入图片描述
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

海量AI大模型必读的经典书籍(PDF)

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
在这里插入图片描述

600+AI大模型报告(实时更新)

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

AI大模型面试真题+答案解析

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

### Qwen2-VL 的训练过程和技术细节 Qwen2-VL 是一种多模态大模型,其设计目标是通过融合文本、图像等多种形式的数据来实现跨模态的理解和生成能力。以下是该模型的训练过程及相关技术细节: #### 1. **三阶段训练方法** Qwen2-VL 的训练分为三个主要阶段,每一步都有特定的目标和数据需求。 - **Stage 1: ViT 组件预训练** 在这一阶段,重点是对 Vision Transformer (ViT) 进行预训练[^2]。此过程中使用的是一大批高质量的图像-文本对数据集,这些数据帮助模型学习到丰富的视觉特征及其对应的语义表示。这种联合训练方式显著增强了模型对于复杂场景下物体识别的能力。 - **Stage 2: 全参数微调** 此阶段涉及整个网络结构的所有参数调整。相比仅优化部分模块,在这里采用了更加多样化且规模更大的综合型数据源来进行全方位的学习。这样做的好处是可以让不同子系统之间形成更好的协作关系,从而提高整体性能表现。 - **Stage 3: LLM 微调与指令适配** 到达最后一个环节时,则主要是针对自然语言处理方面做进一步改进。具体而言就是固定住之前已经很好地掌握了视觉信息提取技巧的那个部分(即冻结ViT),而集中精力于通过对专门准备好的命令式表达集合实施监督下的再加工操作,使得最终产出物既具备强大感知力又能准确响应各种实际应用场景中的查询请求。 #### 2. **关键技术点** - **Vision-Language Pre-training (VLP)** VLP 技术允许模型同时从图片和描述性的文字材料里汲取营养[^1]。它构建了一个统一的空间,在那里无论是图形还是字符串都能被转换成可比较的形式以便后续计算分析之用。 - **Transformer 架构扩展** 基础上的自注意力机制得到了保留并加以增强,以适应新的输入模式组合情况下的高效运算需求[^1]。这意味着即使面对混合类型的序列化对象也能保持良好的泛化特性而不至于轻易崩溃或者失去精度控制。 - **大规模分布式训练基础设施支持** 背后的算力支撑体系同样不可忽视,只有借助高性能GPU集群以及精心设计的任务调度算法才能顺利完成如此庞大的工程挑战[^3]。此外还有诸如自动混精度训练之类的技术手段也被广泛应用其中,旨在加速收敛速度的同时降低资源消耗水平。 ```python # 示例代码展示如何加载预训练权重 from transformers import AutoModel, AutoTokenizer model_name_or_path = "Qwen/Qwen2-VL" tokenizer = AutoTokenizer.from_pretrained(model_name_or_path) model = AutoModel.from_pretrained(model_name_or_path) text_input = tokenizer("An example of a cat", return_tensors="pt") image_input = ... # 加载一张猫的图片张量 outputs = model(**text_input, pixel_values=image_input) print(outputs.logits_per_image.shape) # 输出形状应为(batch_size,) ``` --- ####
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值