Re 82：读论文：qwen 3

最新推荐文章于 2025-06-23 00:23:08 发布

原创最新推荐文章于 2025-06-23 00:23:08 发布 · 1.2k 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#LLM #阿里 #Qwen #千问 #Qwen3

人工智能学习笔记专栏收录该内容

271 篇文章

订阅专栏

诸神缄默不语-个人技术博文与视频目录
 诸神缄默不语的论文阅读笔记和分类

这是阿里千问模型的2025年新版本。我之前简单列举过Qwen 2.5的一些资料和特质：阿里大模型：Qwen2.5

概括地讲，Qwen 3是一个先进的语言大模型，权重小，性能好（实验结果是同尺寸模型下，效果好，而且推理代价小），完全开源权重，有一系列权重，包括稠密的和MoE的（旗舰模型Qwen3-235B-A22B是MoE的）。小模型是由大模型蒸馏出来的。
所有模型权重都可以用prompt或prompt模版来自主切换推理和非推理模式，就不用像以前如果想从推理模式切换非推理模式需要换模型（如以前就得从Qwen 2.5切换到QwQ才能实现推理模式）。
引入了思考预算机制（thinking budget mechanism），可以由用户在推理时动态分配计算资源（控制思维链的深度），更好地平衡复杂推理能力和答案生成速度。

论文下载网址：https://arxiv.org/abs/2505.09388

官方博客：https://qwenlm.github.io/zh/blog/qwen3/
官方GitHub项目：https://github.com/QwenLM/Qwen3

官方大模型试用网站：https://chat.qwen.ai/

官方agent GitHub项目：https://github.com/QwenLM/Qwen-Agent

论文和代码我打了个包，可以直接下：

我用夸克网盘给你分享了「20250621Qwen3」，点击链接或复制整段内容，打开「夸克APP」即可获取。
/~d401372Bc2~:/
链接：https://pan.quark.cn/s/1da01cfd16e3

因为这种大模型的论文都是钞能力，所以我就不太想详细写实验细节了，因为很多都用不到，等我用到了我会回来加的。结果部分我也不太想写，都好意思发出来了实验效果肯定写最好的那一版嘛，cherry-pick，不寒碜！所以我实验结果就直接截图了表格，我觉得还挺不言自明的。
对模型的效果定性评估我过后可能会再出一版。

附录我只看了，没有列进来。

1. 模型架构

在这里插入图片描述

Qwen 3稠密模型的架构类似于Qwen 2.5：
Grouped Query Attention (GQA)
SwiGLU
RoPE¹
RMSNorm with pre-normalization

删除了QKV-bias

引入了QK-Norm

在这里插入图片描述
Qwen3 MoE引入了fine-grained expert segmentation和global-batch load balancing loss，删除了shared experts

1. 分词器

Qwen’s tokenizer：属于byte-level byte-pair encoding (BBPE)

2. 训练流程

1. 预训练

数据来源包括：①微调Qwen2.5-VL从PDF中提取文本。②用Qwen2.5-Math生成数学内容，用Qwen-2.5-Coder生成编程内容。（更多细节略）

第一步：用30T token预训练，让模型学习通用知识。
第二步：用STEM等知识密集型数据（5T）让模型学习推理能力。
第三步：用长上下文训练，将模型上下文最大长度从4,096拓展到32,768。
（需要注意的是，虽然模型原生最大输入token数为32,768，但通过RoPE系编码（如YaRN）可以将上下文长度扩展到131,072 tokens）

最优超参数预测通过scaling laws实现

2. 后训练

在这里插入图片描述

第一步：长CoT冷启动微调
用Qwen-2.5选择复杂且易评估结果正确性的问题，标记并平衡问题领域。对于这些问题，用QwQ-32B生成一组CoT回答候选，如果QwQ-32B无法回答就用人工标注，最终生成CoT数据集（论文里好像没提这一段是哪来的，我寻思应该是人工标来的）。

第二步：推理RL（对数学和编程任务）
数据集是query-verifier对
GRPO

第三步：用含和不含推理路径的数据来微调（让模型获得切换思考和不思考模式的能力）
在这里插入图片描述
在这一步引入了思考预算机制（thinking budget mechanism）：“Considering the limited time by the user, I have to give the solution based on the thinking directly now.\n</think>.\n\n”