Qwen3论文研读

椒椒。

于 2025-07-29 14:45:01 发布

阅读量531

点赞数 21

CC 4.0 BY-SA版权

分类专栏：自然语言处理机器学习深度学习文章标签：人工智能大模型

本文链接：https://blog.youkuaiyun.com/qq_38978225/article/details/149720397

自然语言处理同时被 3 个专栏收录

58 篇文章

订阅专栏

深度学习

55 篇文章

订阅专栏

机器学习

8 篇文章

订阅专栏

1. 前言

Qwen2.5 是阿里通义千问团队最新开源的顶尖 AI 大模型，提供多种参数规模选项，包括：
0.5B、1.5B、3B、7B、14B、32B 和 72B。

该模型在预训练阶段采用了最新的大规模数据集，涵盖多达 18 万亿个 tokens，在以下方面实现了显著提升：

自然语言理解
文本生成
编程能力
数学能力
多模态任务处理

Qwen2.5 支持长文本处理，可生成超过 8K tokens 的内容，并增强了对系统提示的灵活适应性，显著提升了角色扮演和机器人背景设定的能力。此外，模型支持多达 29 种语言，包括中文、英文、法文、西班牙文、葡萄牙文、德文等。

特别地，Qwen2.5-Coder 和 Qwen2.5-Math 是针对编程与数学任务专门优化的模型，在相应领域展现出卓越性能。

Qwen3 在 Qwen2.5 的基础上引入了多项关键改进，进一步增强了功能性和易用性：

双模式统一架构
Qwen3 将“思考模式”与“非思考模式”整合至单一模型中，用户无需切换不同模型（如从 Qwen2.5 切换到 QwQ，Qwen 团队，2024），即可自由切换推理行为。这一设计极大提升了开发者与终端用户的灵活性。
思考预算机制（Thinking Budget）
提供精细控制模型推理深度的能力，用户可根据任务复杂度调节计算资源投入，实现性能与效率的最优平衡。
强大的多语言支持
Qwen3 在涵盖 119 种语言和方言 的 3.6 万亿 tokens 数据上进行预训练，显著增强其国际化应用能力，适用于全球部署场景。
超大规模预训练数据
预训练使用了约 36 万亿 tokens 的高质量、多样化数据集，确保语言与领域的广泛覆盖。数据构建采用多模态策略：
- 使用微调后的 Qwen2.5-VL（白等人，2025）从大量 PDF 文档中提取文本；
- 利用 Qwen2.5-Math（杨等人，2024c）生成数学合成数据；
- 使用 Qwen2.5-Coder（辉等人，2024）生成代码相关数据。
三阶段预训练策略
- 第一阶段：在约 30 万亿 tokens 上训练，建立通用知识基础；
- 第二阶段：聚焦知识密集型数据（如 STEM 与编程），提升推理能力；
- 第三阶段：在长上下文数据上训练，将最大上下文长度从 4,096 扩展至 32,768 tokens。
多阶段后训练与对齐优化
为更好对齐人类偏好与下游应用需求，采用多阶段后训练策略：
- 前两阶段：通过长链思维（Chain-of-Thought, CoT）冷启动微调 + 数学/编程任务强化学习，强化推理能力；
- 后两阶段：合并含/不含推理路径的数据进行统一微调，使模型能自适应两种输入模式，并结合通用领域强化学习提升整体性能；
- 对小规模模型：采用“强到弱蒸馏”技术，融合大模型的离策略与在策略知识迁移，显著提升性能与训练效率。实践表明，先进教师模型的蒸馏效果优于纯强化学习。

综上所述，Qwen3 凭借其统一架构、精细控制机制、超强多语言能力与系统化训练流程，确立了其作为前沿开源大模型家族的领先地位，能够高效应对跨领域、跨语言的复杂任务挑战。

2. 架构

Qwen3 系列包含：

6 个稠密模型：
Qwen3-0.6B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B、Qwen3-32B
2 个 MoE 模型：
Qwen3-30B-A3B（总参数 300 亿，激活参数 30 亿）
Qwen3-235B-A22B（总参数 2350 亿，激活参数 220 亿）

其中，Qwen3-235B-A22B 为旗舰模型，其总参数量达 2350 亿，激活参数为 220 亿。下文将详细阐述 Qwen3 的架构设计。

2.1 稠密模型架构

Qwen3 稠密模型的架构延续自 Qwen2.5（Yang 等，2024b），主要采用以下关键技术：

分组查询注意力（GQA, Grouped Query Attention）（Ainslie 等，2023）
SwiGLU 激活函数（Dauphin 等，2017）
旋转位置编码（RoPE, Rotary Position Embedding）（Su 等，2024）
预归一化 RMSNorm（Jiang 等，2023）

此外，为提升训练稳定性，Qwen3 做出以下改进：

移除了 Qwen2（Yang 等，2024a）中的 QKV 偏置项；
在注意力机制中引入 QK 归一化（QK Normalization）（Dehghani 等，2023）。

这些设计共同增强了模型的表达能力与训练效率。具体架构参数详见表1。
在这里插入图片描述

2.2 MoE 模型架构

Qwen3 的 MoE 模型与稠密模型共享基础架构，并继承 Qwen2.5-MoE（Yang 等，2024b）的设计，进一步优化如下：

细粒度专家划分（Fine-grained Expert Partitioning）（Dai 等，2024）
总专家数：128 个
每 Token 激活专家数：8 个
移除共享专家设计（与 Qwen2.5-MoE 不同）
采用全局批次负载均衡损失（Global-Batch Load Balancing Loss）（Qiu 等，2025），以促进专家专业化

这些架构与训练策略的创新显著提升了 MoE 模型在各类下游任务中的性能表现。

在这里插入图片描述

2.3 Qwen3-235B-A22B 关键配置解析

64 个查询头（Query Heads）
模型可在 64 个不同的子空间中并行处理输入序列，显著增强对复杂语义模式的建模能力。
4 个键值头（KV Heads）
采用 GQA（分组查询注意力） 机制，实现计算效率与性能的平衡：
- 每 16 个查询头共享一组键值头（64 ÷ 16 = 4），有效减少 KV 缓存开销；
- 保留足够的信息传递能力，避免性能损失；
- 4 是经验性设计，兼顾模型表现力与硬件（如 GPU/TPU）并行计算能力的匹配。

设计动机：在保证模型表达能力的前提下，降低推理时的显存占用与计算延迟，适用于大规模部署场景。

3. 预训练

在本节中，我们将详细介绍 Qwen3 模型的预训练数据构建过程、预训练方法设计，并展示基于标准基准测试对基础模型进行评估所获得的实验结果。

3.1 预训练数据

相比 Qwen2.5（Yang 等，2024b），Qwen3 在训练数据的规模与多样性上实现了显著扩展：

Token 数量：提升至原来的 2 倍；
语言覆盖：从 29 种语言扩展至 119 种语言和方言。

所有 Qwen3 模型均在一个大规模、高质量、多领域融合的数据集上进行训练，总计包含 36 万亿个 token。该数据集涵盖以下内容：

编程代码
STEM（科学、技术、工程、数学）
推理任务
书籍与出版物
多语种文本
合成数据

数据扩展策略

为持续扩充高质量预训练语料，我们采用以下多模态与合成方法：

PDF 文档文本提取
- 使用 Qwen2.5-VL（Bai 等，2025）对大量类 PDF 文档进行视觉-语言联合建模，实现高精度文本识别；
- 随后通过 Qwen2.5（Yang 等，2024b）对识别结果进行清洗与语义优化；
- 该两步流程为训练集新增了数万亿高质量 token。
合成数据生成
利用以下模型生成覆盖数十个领域的多样化合成数据：
- Qwen2.5：生成通用文本（如教科书、问答对、指令）；
- Qwen2.5-Math（Yang 等，2024c）：生成数学问题与解题过程；
- Qwen2.5-Coder（Hui 等，2024）：生成多语言代码片段；
- 合成数据包括：教科书、问答对、指令数据、代码示例等，总量达数万亿 token。
多语言数据增强
显著增加非英语语种的覆盖，支持语言从 29 种提升至 119 种，大幅增强模型的跨语言理解能力与国际化部署潜力。

多语言数据标注系统

我们开发了一套多维度数据标注系统，用于提升训练数据的质量与配比科学性：

已对超过 30 万亿 token 进行细粒度标注；
标注维度包括：
- 教育价值
- 领域类别（如科技、人文、医学）
- 学科方向
- 安全性等级

该系统支持：

更精准的数据筛选与去重；
基于标签的动态数据混合；
在小型代理模型上进行大量消融实验，实现样本级别的数据配比优化。

✅ 创新点：不同于以往研究（Xie 等，2023；Fan 等，2023；Liu 等，2024b）在数据源或领域层级优化混合策略，Qwen3 实现了细粒度、实例级的数据调控，显著提升训练效率与模型性能。

3.2 预训练阶段

Qwen3 采用三阶段预训练策略，逐步增强模型能力，具体如下：

阶段	名称	训练目标	Token 数量	序列长度	关键技术
S1	通用阶段	构建通用语言与知识基础	>30 万亿	4,096	多语言通用语料训练
S2	推理阶段	强化逻辑与专业领域推理能力	~5 万亿	4,096	增加 STEM/编程/合成数据比例，加快学习率衰减
S3	长上下文阶段	扩展上下文长度至 32K	数百亿	32,768	引入长文本语料 + YARN + DCA

阶段详解

S1：通用阶段（General Pretraining）
- 所有模型在 超过 30 万亿 token 上进行训练；
- 序列长度为 4,096；
- 数据覆盖 119 种语言和方言；
- 目标：建立强大的通用语言理解与世界知识基础。
S2：推理阶段（Reasoning Enhancement）
- 聚焦提升模型在 STEM、编程、复杂推理 等任务上的表现；
- 优化语料配比，显著增加：
  - 数学问题
  - 代码逻辑
  - 推理链数据
  - 合成教学材料
- 训练数据量：约 5 万亿 token；
- 学习率衰减速度加快，加速收敛。
S3：长上下文阶段（Long Context Expansion）
- 目标：将最大上下文长度从 4K 扩展至 32,768；
- 使用专门构建的高质量长文本语料库进行训练；
- 语料长度分布：
  - 75%：16,384 ~ 32,768 tokens
  - 25%：4,096 ~ 16,384 tokens
- 关键技术引入：
  - ABF（Adaptive Base Frequency）（Xiong 等，2023）：将 RoPE 的基础频率从 10,000 提升至 1,000,000，增强位置编码外推能力；
  - YARN（Peng 等，2023）：动态缩放位置编码，支持长序列泛化；
  - Dual Chunk Attention (DCA)（An 等，2024）：提升长序列注意力计算效率；
- 最终实现模型在推理时支持 32K 上下文长度，性能稳定且高效。

通过上述系统化的数据构建与三阶段训练流程，Qwen3 在语言广度、知识深度与上下文能力方面均实现了显著跃升，为后续的后训练与对齐奠定了坚实基础。

3.3 预训练阶段（Pre-training Stages）

Qwen3 采用三阶段渐进式预训练策略，各阶段按严格顺序执行，逐层增强模型能力。三个阶段分别为：

S1：通用阶段（General Pretraining）
S2：推理阶段（Reasoning Enhancement）
S3：长上下文阶段（Long Context Expansion）

执行原则

顺序性
必须按 S1 → S2 → S3 顺序进行：
- S2 依赖 S1 建立的语言与常识基础；
- S3 依赖 S2 提升后的逻辑与结构化推理能力。
侧重点演进
各阶段能力递进：
- S1：语言理解 + 常识学习
- S2：逻辑推理 + 编程能力
- S3：长文本建模与处理
每一阶段通过调整数据构成、序列长度或引入关键技术（如 RoPE、YARN、DCA），针对性优化特定能力。

三阶段核心对比

维度	S1：通用阶段	S2：推理阶段	S3：长上下文阶段
目标	建立语言与通用知识基础	强化逻辑、数学、编程等推理能力	支持超长文本建模（最高 32K tokens）
训练数据	覆盖 119 种语言的自然语言文本	增加 STEM、代码、推理任务、合成数据	75% 为 16K~32K 长文本，25% 为 4K~16K 文本
Token 数量	>30 万亿	~5 万亿（高质量）	数百亿（精选长文本）
序列长度	4,096 tokens	4,096 tokens	32,768 tokens
关键技术	—	加快学习率衰减	ABF、YARN、Dual Chunk Attention (DCA)

阶段详解

S1：通用阶段（General Pretraining）
- 目标：奠定坚实的语言理解与通用世界知识基础。
- 训练数据：
  - 覆盖 119 种语言和方言；
  - 内容涵盖新闻、百科、网页、书籍等通用文本。
- 特点：
  - 使用超大规模数据（>30 万亿 tokens）；
  - 序列长度为 4,096 tokens；
  - 注重语言流畅性、语义理解与多语言泛化能力。
S2：推理阶段（Reasoning Enhancement）
- 目标：提升模型在科学、技术、工程、数学（STEM）及编程等领域的结构化推理能力。
- 训练数据：
  - 显著增加 STEM 问题、代码片段、逻辑推理题、合成教学数据；
  - 总量约 5 万亿高质量 tokens；
  - 序列长度仍为 4,096 tokens。
- 优化策略：
  - 数据配比向结构化知识倾斜（如数学公式、算法逻辑）；
  - 采用更快的学习率衰减，加速模型在高阶任务上的收敛。
S3：长上下文阶段（Long Context Expansion）
- 目标：使模型能够高效处理超长输入，如整篇文档、代码库或书籍章节。
- 训练数据：
  - 以长文本为主：
    - 75% 的文本长度在 16,384 ~ 32,768 tokens；
    - 25% 的文本长度在 4,096 ~ 16,384 tokens。
- 关键技术升级：
  - ABF（Adaptive Base Frequency）（Xiong 等，2023）：
    将 RoPE 的基础频率从 10,000 提升至 1,000,000，显著缓解长序列中位置编码的衰减问题。
  - YARN（Peng 等，2023）：
    动态缩放位置编码，支持更优的长度外推性能。
  - Dual Chunk Attention (DCA)（An 等，2024）：
    将长序列分块处理，提升注意力计算效率与显存利用率。
- 成果：
  模型最大上下文长度扩展至 32,768 tokens，推理时上下文承载能力相比早期版本提升 4 倍。

通过这种分阶段、有侧重的训练策略，Qwen3 实现了从“能说”到“会想”再到“看得长”的能力跃迁，为后续的后训练与对齐打下坚实基础。

4 Post-training

在这里插入图片描述

（1）Flagship Models（旗舰模型）
Base Models（基础模型）:
这是整个流程的起点，即初始的基础模型。
Stage 1: Long-CoT Cold Start:
在这个阶段，模型通过 Long Chain of Thought（长链思考）进行冷启动。这是一种让模型逐步推理的方法。

Stage 2: Reasoning RL:
这个阶段涉及 Reasoning Reinforcement Learning（推理强化学习），进一步优化模型的推理能力。

Stage 3: Thinking Mode Fusion:
将不同的思考模式融合到模型中，以增强其综合性能。

Stage 4: General RL:
进行一般的强化学习，进一步提升模型的通用性。

最终输出:
经过上述四个阶段的训练后，得到两个主要的旗舰模型：

Qwen3-235B-A22B
Qwen3-32B

（2）Lightweight Models（轻量级模型）

Base Models（基础模型）:
同样从基础模型开始。

Strong-to-Weak Distillation:
通过强到弱的蒸馏过程，将大型模型的知识转移到较小的模型中，从而得到轻量级的模型。

最终输出:
得到多个不同大小的轻量级模型：

Qwen3-30B-A3B
14B / 8B / 4B / 1.7B / 0.6B

Qwen3 的后训练流水线战略设计了两个核心目标：

✅ (1) 思维控制（Thinking Control）：
这包括集成两种不同的模式，即“非思考”（non-thinking）和“思考”（thinking）模式，为用户提供选择模型是否需要进行推理的灵活性，并且可以通过指定思维过程的 token 预算来控制思考的深度。

✅ (2) 强到弱知识蒸馏（Strong-to-Weak Distillation）：
其目标是为轻量级模型的后训练流程进行优化与简化。通过利用大规模模型的知识，我们显著降低了构建小规模模型所需的计算成本和开发工作量。

如图1所示，Qwen3系列中的旗舰模型遵循一个复杂的四阶段训练流程。前两个阶段专注于开发模型的“思考”能力。后两个阶段则旨在将强大的“非思考”功能集成到模型中。

初步实验表明，将教师模型的输出 logits 直接蒸馏到轻量级学生模型中，可以有效提升其性能，同时还能对推理过程保持细粒度的控制。这种方法消除了为每一个小规模模型单独执行四阶段训练的必要性。它带来了更优的即时性能表现（体现在更高的 Pass@1 分数上），同时也提升了模型的探索能力（反映在改进的 Pass@64 结果上）。此外，这种方法在训练效率方面也有显著提升，仅需四阶段训练方法所需 GPU 小时数的十分之一即可实现上述收益。

在接下来的章节中，我们将展示四阶段训练流程，并对“强到弱蒸馏”方法进行详细说明。

4.1 长链思维（Long-CoT）冷启动

在强化学习训练初期，通过构建少量高质量的长链式思维数据来对模型进行微调作为强化学习的初始化模型。有效解决在强化学习阶段模型训练数据的可读性差、语言混杂、训练不稳定的问题。有效规范模型的输出格式和推理逻辑。

我们首先构建一个涵盖广泛类别的综合数据集，包括数学、代码、逻辑推理和一般STEM问题。数据集中的每个问题都配有经过验证的参考答案或基于代码的测试用例。该数据集作为长链思维（long-CoT）训练“冷启动”阶段的基础。

数据集的构建包括两个严格的过滤阶段：查询过滤和响应过滤。

查询过滤阶段：
使用 Qwen2.5-72B-Instruct 来识别并移除不易验证的查询内容。这包括：

包含多个子问题的查询
要求进行一般文本生成的查询

此外，我们还排除那些 Qwen2.5-72B-Instruct 不需要使用 CoT 推理就能正确回答的问题。这有助于防止模型依赖于表面猜测，并确保仅包含需要深入推理的复杂问题。另外，我们还使用 Qwen2.5-72B-Instruct 对每个查询的领域进行标注，以保持数据集中各领域的平衡分布。

响应过滤阶段：
在保留一部分用于验证的查询集合后，我们使用 QwQ-32B（Qwen团队，2025）为其余每个查询生成 N 个候选响应。当 QwQ-32B 持续无法生成正确解答时，由人工标注员手动评估响应的准确性。对于具有正向 Pass@N 的查询，我们进一步应用严格的过滤标准来剔除以下类型的响应：

最终答案错误；
包含大量重复内容；
明显表现出无充分推理的猜测行为；
思考过程与总结内容不一致；
混合使用不当语言或风格突变；
被怀疑与验证集中的潜在条目过于相似。

随后，我们从精炼后的数据集中选取一个精心挑选的子集，用于推理模式的初始冷启动训练。此阶段的目标是在不过分强调即时推理表现的前提下，向模型灌输基础的推理模式。这种方法确保了模型的潜力不会受到限制，从而在后续的强化学习（RL）阶段具备更大的灵活性和提升空间。为了有效实现这一目标，在准备阶段最好尽量减少训练样本的数量和训练步数。

4.2 强化学习

通过训练奖励模型，来使大模型能够更好地与人类行为对齐，通过强化学习引导大模型在训练数据中找到比训练数据更好的回答，不断引导提高模型的创新能力，让大模型能够自我思考而不是只是简单地复制已有的知识，与人类的思维模式相对齐。

通过惩罚机制，让模型学习进行逻辑推理、自主导向、多步决策和目标导向的行为。

在推理强化学习（Reasoning RL）阶段使用的查询-验证器对必须满足以下四个标准：

它们未在冷启动阶段使用。
对于冷启动模型来说，它们是可学习的。
它们尽可能具有挑战性。
它们涵盖了广泛的子领域。

我们最终收集了总共 3,995 个查询-验证器对，并采用 GRPO（Shao 等人，2024）来更新模型参数。

我们观察到，使用较大的批量大小和每个查询较高的回滚次数，结合离策略训练以提高样本效率，对训练过程是有益的。我们还通过控制模型的熵使其稳步增加或保持稳定，解决了如何平衡探索与利用的问题，这对于维持稳定的训练至关重要。

因此，在一个 RL 运行过程中，我们实现了训练奖励和验证性能的持续提升，无需对超参数进行任何人工干预。例如，Qwen3-235B-A22B 模型的 AIME’24 分数在总共 170 个 RL 训练步骤中从 70.1 提升至 85.1。

4.3 思考模式融合

思考模式融合阶段的目标是将“非思考”能力整合到之前开发的“思考”模型中。这种方法使开发者能够管理和控制推理行为，同时也减少了为思考和非思考任务部署单独模型所带来的成本和复杂性。为了实现这一点，我们在推理强化学习（RL）模型上进行了持续的监督微调（SFT），并设计了一个对话模板来融合这两种模式。此外，我们发现能够熟练处理这两种模式的模型在不同思考预算下都能表现稳定。

SFT数据构建 (Construction of SFT data):

SFT数据集结合了“思维”数据和“非思维”数据。

为了确保第二阶段模型的性能不会因额外的SFT而受损，“思维”数据是通过使用第二阶段模型本身对第一阶段查询进行拒绝采样（rejection sampling）生成的。
“非思维”数据则经过精心策划，涵盖多样化的任务范围，包括：
- 编码
- 数学
- 指令遵循
- 多语言任务
- 创意写作
- 问答
- 角色扮演
此外，我们采用自动生成的检查清单来评估“非思维”数据的响应质量。

聊天模板设计 (Chat Template Design):

为了更好地整合两种模式并让用户能够动态切换模型的思维过程，我们为 Qwen3 设计了聊天模板，如表9所示。

具体来说，对于思维模式和非思维模式的样本，我们分别在用户查询或系统消息中引入了 /think 和 /no think 标志。
这使得模型能够遵循用户的输入，并相应地选择合适的思维模式。
对于非思维模式的样本，我们在助手的响应中保留一个空的思维块（thinking block）。
这种设计确保了模型内部的格式一致性，并允许开发者通过在聊天模板中拼接一个空的思维块来阻止模型进行思维行为。
默认情况下，模型在思维模式下运行；因此，我们添加了一些用户查询中不包含 /think 标志的思维模式训练样本。
对于更复杂的多轮对话，我们在用户查询中随机插入多个 /think 和 /no think 标志，模型响应遵循遇到的最后一个标志。

表9：在思考模式融合阶段，思考模式和非思考模式的SFT（监督微调）数据示例。
对于思考模式，/think 标志可以被省略，因为它代表默认行为。这一特性已经在 Hugging Face 的分词器所支持的聊天模板¹ 中实现，在该模板中，可以通过一个额外的参数 enable_thinking=False 来禁用思考模式。

思维预算 (Thinking Budget):

思维模式融合的一个额外优势是，一旦模型学会以非思维和思维模式进行响应，它自然就发展出处理中间情况的能力——即基于不完整的思维生成响应。

这种能力为实现对模型思维过程的预算控制奠定了基础。
具体来说，当模型的思维长度达到用户定义的阈值时，我们手动停止思维过程，并插入停止思维指令：

</think>
插入此指令后，模型将根据此时累积的推理继续生成最终响应。
值得注意的是，这种能力并非显式训练得到，而是应用思维模式融合后自然涌现的结果。

4.4 通用强化学习

通用强化学习阶段旨在广泛提升模型在多样化场景中的能力与稳定性。为此，我们构建了一套复杂的奖励系统，涵盖超过20项独立任务，每项任务均配备定制化的评分标准。这些任务着重强化以下核心能力：

指令遵循能力：
确保模型能准确理解并执行用户指令，包括内容要求、格式规范、长度限制以及结构化输出的使用，从而生成符合用户期望的回应。
格式遵循能力：
除显式指令外，模型需遵守特定格式规范。例如，需根据 /think 和 /no think 标志切换思考与非思考模式，并在最终输出中始终使用指定标记（如 <think> 和 </think>）分隔思考过程与回应内容。
偏好对齐能力：
针对开放式问题，偏好对齐旨在提升模型的有用性、互动性和风格表现，最终提供更自然、更令人满意的用户体验。
智能体能力：
通过指定接口训练模型正确调用工具。在强化学习过程中，模型可执行完整的多轮交互循环，并获取真实环境执行反馈，从而提升其在长期决策任务中的表现与稳定性。
专业场景能力：
针对更专业的场景，我们设计特定任务。例如在检索增强生成（RAG）任务中，通过奖励信号引导模型生成准确且语境恰当的回应，最大限度降低幻觉风险。

为上述任务提供反馈 (To provide feedback for the aforementioned tasks), 我们利用了三种不同类型的奖励：

(1) 基于规则的奖励 (Rule-based Reward):

基于规则的奖励在推理强化学习阶段已被广泛使用，它对于指令遵循（Lambert et al., 2024）和格式遵守等通用任务也很有用。
精心设计的基于规则的奖励可以高精度地评估模型输出的正确性，防止奖励黑客（reward hacking）等问题。

(2) 带参考答案的基于模型的奖励 (Model-based Reward with Reference Answer):

在这种方法中，我们为每个查询提供一个参考答案，并提示（prompt）Qwen2.5-72B-Instruct 模型基于此参考答案对模型的响应进行评分。
这种方法允许更灵活地处理多样化的任务，而无需严格的格式要求，避免了纯基于规则的奖励可能出现的误判（false negatives）。

(3) 不带参考答案的基于模型的奖励 (Model-based Reward without Reference Answer):

利用人类偏好数据，我们训练一个奖励模型来为模型响应分配标量分数。
这种方法不依赖于参考答案，可以处理更广泛的查询范围，同时有效增强模型的互动性（engagement）和有用性（helpfulness）。

4.5 强到弱蒸馏 (Strong-to-Weak Distillation)

强到弱蒸馏流程专为优化轻量级模型设计，包含：

5 个稠密模型：Qwen3-0.6B、1.7B、4B、8B 和 14B
1 个 MoE 模型：Qwen3-30B-A3B

该方法在提升模型性能的同时，有效赋予了强大的模式切换能力。

蒸馏过程分为两个主要阶段：

(1) 离线策略蒸馏 (Off-policy Distillation)：
在此初始阶段，我们融合教师模型在 /think（思考）和 /no think（非思考）模式下生成的输出来进行响应蒸馏。
这帮助轻量级学生模型掌握基础推理能力和切换不同思维模式的能力，为后续在线策略训练阶段奠定坚实基础。

(2) 在线策略蒸馏 (On-policy Distillation)：
此阶段中，学生模型生成在线策略序列进行微调。具体流程为：

采样输入提示（prompt）
学生模型以 /think 或 /no think 模式生成响应
通过对齐教师模型（Qwen3-32B 或 Qwen3-235B-A22B）的 logits 来微调学生模型，以最小化 KL 散度。

4.6 训后评估

为了全面评估指令微调模型的质量，我们采用了自动化基准测试，以评估模型在“思考”和“非思考”两种模式下的表现。这些基准测试被划分为多个维度：

✅ • 通用任务：
我们使用了包括以下基准测试：

MMLU-Redux (Gema 等, 2024)
GPQA-Diamond (Rein 等, 2023)
C-Eval (Huang 等, 2023)
LiveBench (2024-11-25) (White 等, 2024)

对于 GPQA-Diamond，我们对每个问题采样 10 次，并报告平均准确率。

✅ • 对齐任务：
为了评估模型与人类偏好的对齐程度，我们采用了一系列专门的基准测试：

指令遵循能力：报告 IFEval (Zhou 等, 2023) 的严格提示准确率。
一般话题偏好对齐：使用 Arena-Hard (Li 等, 2024) 和 AlignBench v1.1 (Liu 等, 2023b)。
写作任务：依赖 Creative Writing V3 (Paech, 2024) 和 WritingBench (Wu 等, 2025) 来评估模型的专业水平和创造力。

✅ • 数学与文本推理：
为评估数学和逻辑推理能力，采用以下高级数学与推理基准：

MATH-500 (Lightman 等, 2023)
AIME’24 和 AIME’25 (AIME, 2025)
ZebraLogic (Lin 等, 2025)
AutoLogi (Zhu 等, 2025)

对于 AIME 问题，每年的试题包含第一部分和第二部分，共 30 道题。每道题我们采样 64 次，取平均准确率作为最终得分。

✅ • 智能体与编程：
为测试模型在编程和智能体任务中的能力，使用：

BFCL v3 (Yan 等, 2024)
LiveCodeBench (v5, 2024.10–2025.02) (Jain 等, 2024)
CodeElo (Quan 等, 2025) 的 Codeforces 评分

评估细节：

在 BFCL 测试中，所有 Qwen3 模型均使用 FC 格式进行评估，并使用 yarn 将模型部署至 64k 上下文长度以支持多轮对话评估。
部分基线结果来自 BFCL 排行榜，取 FC 与 Prompt 两种格式中的较高分；未在排行榜中报告的模型则采用 Prompt 格式评估。
在 LiveCodeBench 中：
- 非思考模式使用官方推荐的提示词；
- 思考模式下调整提示模板，移除“你只能返回程序，不能输出其他内容”的限制，使模型能更自由地进行推理。
为评估模型与竞赛编程专家之间的性能差距，使用 CodeForces 数据计算 Elo 评分。
每道题目通过生成最多八次独立的推理尝试来求解。

✅ • 多语言任务：
为评估多语言能力，测试四类任务：

指令遵循
知识掌握
数学能力
逻辑推理

具体基准：

指令遵循：Multi-IF (He 等, 2024)，涵盖 8 种关键语言。
知识评估：
- INCLUDE (Romanou 等, 2024)：评估 44 种语言的区域知识；
- MMMLU (OpenAI, 2024)：在 14 种语言上评估通用知识（排除未优化的约鲁巴语 Yoruba）；
- 以上两个基准仅采样原始数据的 10% 以提高评估效率。
数学任务：
- MT-AIME2024 (Son 等, 2025)：覆盖 55 种语言；
- PolyMath (Wang 等, 2025)：包含 18 种语言。
逻辑推理：MlogiQA，涵盖来自 Zhang 等 (2024) 的 10 种语言。

表10：多语言基准测试及所包含的语言。语言采用 IETF 语言标签进行标识。

采样配置

对于所有 Qwen3 模型：

思考模式：
- temperature = 0.6
- top-p = 0.95
- top-k = 20
- presence penalty = 1.5（仅 Creative Writing v3 和 WritingBench）
非思考模式：
- temperature = 0.7
- top-p = 0.8
- top-k = 20
- presence penalty = 1.5
最大输出长度（max output length）：
- 默认：32,768 个 token
- AIME’24 和 AIME’25 任务：扩展至 38,912 个 token，以提供充足的思考空间

Table 11: Comparison among Qwen3-235B-A22B (Thinking) and other reasoning baselines. The highest and second-best scores are shown in bold and underlined, respectively.

表12：Qwen3-235B-A22B（非思考模式）与其他非推理基线的比较。最高分和次高分分别用粗体和下划线标注。

评估结果总结

从评估结果中，我们总结了最终版 Qwen3 模型的几个关键结论如下：

(1) 我们的旗舰模型 Qwen3-235B-A22B 在思维模式和非思维模式下均展现出开源模型中最先进的整体性能，超越了 DeepSeek-R1 和 DeepSeek-V3 等强劲基准模型。Qwen3-235B-A22B 也与闭源领先模型（如 OpenAI-o1、Gemini2.5-Pro 和 GPT-4o）具有高度竞争力，彰显了其深厚的推理能力和全面的通用能力。

(2) 我们的旗舰密集模型 Qwen3-32B 在大多数基准测试中优于我们之前的最强推理模型 QwQ-32B，其性能与闭源的 OpenAI-o3-mini 相当，表明其强大的推理能力。Qwen3-32B 在非思维模式下表现同样出色，超越了我们之前旗舰非推理密集模型 Qwen2.5-72B-Instruct。

(3) 我们的轻量级模型，包括 Qwen3-30B-A3B、Qwen3-14B 及其他参数量更小的密集模型，其性能始终优于参数量相近或更大的开源模型，证明了我们“强到弱蒸馏”方法的成功。

以下是详细的对比结果。

Qwen3-235B-A22B:

我们将其与领先的推理和非推理模型进行了比较：

推理模式下基准模型：
- OpenAI-o1 (OpenAI, 2024)
- DeepSeek-R1 (郭等人, 2025)
- Grok-3-Beta (Think) (xAI, 2025)
- Gemini2.5-Pro (DeepMind, 2025)
非推理模式下基准模型：
- GPT-4o-2024-11-20 (OpenAI, 2024)
- DeepSeek-V3 (刘等人, 2024a)
- Qwen2.5-72B-Instruct (杨等人, 2024b)
- LLaMA-4-Maverick (Meta-AI, 2025)

评估结果展示于 表11 和表12。

(1) 从表11可以看出，在仅激活60%且总参数使用35%的情况下，Qwen3-235B-A22B（推理模式） 在23项基准测试中的17项上超越了 DeepSeek-R1，尤其是在数学、智能体和编程等需要推理的任务中表现尤为突出，这表明 Qwen3-235B-A22B 在开源模型中达到了最先进的推理能力。此外，该模型在与闭源模型 OpenAI-o1、Grok-3-Beta（Think）和 Gemini2.5-Pro 的竞争中表现出极强的竞争力，显著缩小了开源模型与闭源模型在推理能力上的差距。

(2) 从表12可以看出，Qwen3-235B-A22B（非推理模式） 超越了其他领先的开源模型，包括 DeepSeek-V3、LLaMA-4-Maverick 以及我们之前的旗舰模型 Qwen2.5-72B-Instruct，并在23项基准测试中的18项上超越了闭源模型 GPT-4o-2024-11-20，这表明即便在没有刻意启用推理过程的情况下，该模型本身也具备强大的能力。

Qwen3-32B:

推理模式下基准模型：
- DeepSeek-R1-Distill-Llama-70B
- OpenAI-o3-mini（中等）
- QwQ-32B（Qwen 团队, 2025）
非推理模式下基准模型：
- GPT-4o-mini-2024-07-18
- LLaMA-4-Scout
- Qwen2.5-72B-Instruct

评估结果展示于 表13 和表14。

(1) 从表13可以看出，Qwen3-32B（推理模式） 在23项基准测试中的17项上超越了 QwQ-32B，使其成为32B参数量下新的最先进推理模型。此外，Qwen3-32B 在与闭源模型 OpenAI-o3-mini（中等）的竞争中，在指令对齐和多语言性能方面表现更优。

(2) 从表14可以看出，Qwen3-32B（非推理模式） 在几乎所有基准测试中都展现出优于所有基准模型的表现。特别地，Qwen3-32B 在通用任务上与 Qwen2.5-72B-Instruct 表现相当，但在指令对齐、多语言以及与推理相关的任务上具有显著优势，再次证明了 Qwen3 系列模型相较于我们之前的 Qwen2.5 系列模型所取得的根本性进步。

Qwen3-30B-A3B & Qwen3-14B:

推理模式下比较对象：
- DeepSeek-R1-Distill-Qwen-32B
- QwQ-32B
非推理模式下比较对象：
- Phi-4 (Abdin 等人, 2024)
- Gemma-3-27B-IT (Team 等人, 2025)
- Qwen2.5-32B-Instruct

评估结果展示于 表15 和表16。

(1) 从表15可以看出，Qwen3-30B-A3B 和 Qwen3-14B（推理模式） 都与 QwQ-32B 具有很强的竞争力，尤其是在与推理相关的基准测试中。值得注意的是，Qwen3-30B-A3B 以更小的模型尺寸和不到十分之一的激活参数，就达到了与 QwQ-32B 相当的性能，这证明了我们“强到弱蒸馏”方法在赋予轻量级模型强大推理能力方面的有效性。

(2) 从表16可以看出，Qwen3-30B-A3B 和 Qwen3-14B（非推理模式） 在大多数基准测试中都超越了非推理基准模型。它们以显著更少的激活参数和总参数，就超过了我们之前的 Qwen2.5-32B-Instruct 模型，从而实现了更高效且更具成本效益的性能。

Qwen3-8B / 4B / 1.7B / 0.6B:

Qwen3-8B / 4B：
- 推理模式 vs. DeepSeek-R1-Distill-Qwen-14B / -32B
- 非推理模式 vs. LLaMA-3.1-8B-Instruct、Gemma-3-12B-IT、Qwen2.5-7B-Instruct、Qwen2.5-14B-Instruct
Qwen3-1.7B / 0.6B：
- 推理模式 vs. DeepSeek-R1-Distill-Qwen-1.5B / -Llama-8B
- 非推理模式 vs. Gemma-3-1B-IT、Phi-4-mini、Qwen2.5-1.5B-Instruct、Qwen2.5-3B-Instruct

评估结果展示于：

表17 和表18（Qwen3-8B 和 Qwen3-4B）
表19 和表20（Qwen3-1.7B 和 Qwen3-0.6B）

总体结论：
这些面向边缘设备（edge-side）的模型展现了令人印象深刻的表现，并且即使在参数数量更多的情况下，也超越了基准模型，包括我们之前的 Qwen2.5 模型，无论是在推理模式还是非推理模式下都是如此。这些结果再次证明了我们“强到弱蒸馏”方法的有效性，使得我们能够以显著降低的成本和努力来构建轻量级的 Qwen3 模型。

4.7 讨论

思考预算的有效性

为了验证 Qwen3 是否能够通过增加“思考预算”来提升其智能水平，我们在数学、编程和 STEM 领域的四个基准测试上调整了分配的思考预算。相应的扩展性能曲线如图 2 所示。

Qwen3 展现出随着思考预算的增加而呈现出可扩展且平滑的性能提升。
此外，我们观察到，如果未来进一步将输出长度扩展到超过 32K，模型的性能有望进一步提升。
我们将这一探索留作未来工作。

策略内蒸馏的有效性与效率

我们通过比较在相同离策略蒸馏得到的 8B 模型检查点基础上，进行蒸馏与直接强化学习后的性能和计算成本（以 GPU 小时衡量），来评估策略内蒸馏的有效性与效率。

为简化分析，本比较仅关注数学和代码相关的查询任务。
结果如 表21 所示，蒸馏方法在性能上显著优于强化学习，同时所需的 GPU 计算时间仅约为后者的十分之一。
此外，从教师模型的 logits 进行蒸馏，使学生模型能够扩展其探索空间并增强其推理潜力，这一点在 AIME’24 和 AIME’25 基准测试中蒸馏后 pass@64 分数的提升上得到了验证，相较于初始检查点表现更优。
相比之下，强化学习并未带来 pass@64 分数的任何提升。

表21：Qwen3-8B上强化学习与在策略蒸馏的对比。括号内的数字表示pass@64分数。

![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/0128214da64148c4809b6f342990d2c1.png)

思维模式融合与通用强化学习的影响

为了评估在后训练过程中思维模式融合和通用强化学习（RL）的有效性，我们在 Qwen3-32B 模型的不同阶段进行了评估。除了之前提到过的数据集，我们还引入了几个内部基准测试来监控其他能力：

CounterFactQA：包含反映事实问题，模型需要识别这些问题并非基于事实，并避免生成幻觉性回答。
LengthCtrl：包含有长度要求的创意写作任务；最终得分基于生成内容长度与目标长度之间的差异。
ThinkFollow：涉及多轮对话，其中随机插入了 /think 和 /no think 标记，以测试模型能否根据用户查询正确切换思维模式。
ToolUse：评估模型在单轮、多轮和多步骤工具调用过程中的稳定性。得分包括工具调用过程中意图识别的准确性、格式准确性和参数准确性。

表22：经过推理强化学习（阶段2）、思维模式融合（阶段3）和通用强化学习（阶段4）后，Qwen3-32B的性能。带有 * 的基准测试是内部数据集。

结果分析：

(1) 第三阶段将非思考模式整合到模型中，该模型在经过前两个阶段的训练后已经具备思考能力。ThinkFollow 基准得分为 88.7，表明模型已初步发展出在两种模式间切换的能力，尽管它偶尔仍会出错。第三阶段还增强了模型在思考模式下的通用能力和指令跟随能力：

CounterFactQA 提升了 10.9 分
LengthCtrl 提升了 8.0 分

(2) 第四阶段进一步强化了模型在思考模式和非思考模式下的通用能力、指令跟随能力以及代理能力。值得注意的是，ThinkFollow 得分提升至 98.9，确保了模式切换的准确性。

(3) 对于知识、STEM、数学和编程任务，思考模式融合和通用强化学习并未带来显著提升。相反，对于 AIME’24 和 Live-CodeBench 等具有挑战性的任务，经过这两个训练阶段后，思考模式下的性能反而有所下降。

推测原因：这种性能下降是由于模型在更广泛的通用任务上进行了训练，这可能削弱了其处理复杂问题的专业能力。

开发权衡：在 Qwen3 的开发过程中，我们选择接受这种性能权衡，以提升模型的整体通用性。

5. 结论

在本技术报告中，我们介绍了 Qwen 系列最新版本——Qwen3。

Qwen3 具备思考模式和非思考模式两种功能，允许用户动态管理用于复杂思考任务的 token 数量。

该模型在一个包含 360 万亿 token 的庞大语料库上进行了预训练，使其能够理解并生成 119 种语言和方言的文本。

通过一系列全面的评估，Qwen3 在预训练和微调模型的标准基准测试中均表现出色，涵盖了：

代码生成
数学
推理
智能体等相关任务

未来研究方向

在不久的将来，我们的研究将聚焦于几个关键领域：

扩大预训练规模：继续使用质量更高、内容更丰富的数据进行更大规模的预训练。
改进模型架构与训练方法：致力于实现有效的模型压缩，并支持极长上下文等先进能力。
增强强化学习能力：计划增加用于强化学习的计算资源，特别侧重于能够从环境反馈中学习的基于智能体的强化学习系统。

这些努力将使我们能够构建能够处理需要推理时间扩展的复杂任务的智能体，进一步推动通用人工智能的发展。