Re 82:读论文:qwen 3

诸神缄默不语-个人技术博文与视频目录
诸神缄默不语的论文阅读笔记和分类

这是阿里千问模型的2025年新版本。我之前简单列举过Qwen 2.5的一些资料和特质:阿里大模型:Qwen2.5

概括地讲,Qwen 3是一个先进的语言大模型,权重小,性能好(实验结果是同尺寸模型下,效果好,而且推理代价小),完全开源权重,有一系列权重,包括稠密的和MoE的(旗舰模型Qwen3-235B-A22B是MoE的)。小模型是由大模型蒸馏出来的。
所有模型权重都可以用prompt或prompt模版来自主切换推理和非推理模式,就不用像以前如果想从推理模式切换非推理模式需要换模型(如以前就得从Qwen 2.5切换到QwQ才能实现推理模式)。
引入了思考预算机制(thinking budget mechanism),可以由用户在推理时动态分配计算资源(控制思维链的深度),更好地平衡复杂推理能力和答案生成速度。

论文下载网址:https://arxiv.org/abs/2505.09388

官方博客:https://qwenlm.github.io/zh/blog/qwen3/
官方GitHub项目:https://github.com/QwenLM/Qwen3

官方大模型试用网站:https://chat.qwen.ai/

官方agent GitHub项目:https://github.com/QwenLM/Qwen-Agent

论文和代码我打了个包,可以直接下:

我用夸克网盘给你分享了「20250621Qwen3」,点击链接或复制整段内容,打开「夸克APP」即可获取。
/~d401372Bc2~:/
链接:https://pan.quark.cn/s/1da01cfd16e3

因为这种大模型的论文都是钞能力,所以我就不太想详细写实验细节了,因为很多都用不到,等我用到了我会回来加的。结果部分我也不太想写,都好意思发出来了实验效果肯定写最好的那一版嘛,cherry-pick,不寒碜!所以我实验结果就直接截图了表格,我觉得还挺不言自明的。
对模型的效果定性评估我过后可能会再出一版。

附录我只看了,没有列进来。

1. 模型架构

在这里插入图片描述

Qwen 3稠密模型的架构类似于Qwen 2.5:
Grouped Query Attention (GQA)
SwiGLU
RoPE1
RMSNorm with pre-normalization

删除了QKV-bias

引入了QK-Norm

在这里插入图片描述
Qwen3 MoE引入了fine-grained expert segmentation和global-batch load balancing loss,删除了shared experts

1. 分词器

Qwen’s tokenizer:属于byte-level byte-pair encoding (BBPE)

2. 训练流程

1. 预训练

数据来源包括:①微调Qwen2.5-VL从PDF中提取文本。②用Qwen2.5-Math生成数学内容,用Qwen-2.5-Coder生成编程内容。(更多细节略)

第一步:用30T token预训练,让模型学习通用知识。
第二步:用STEM等知识密集型数据(5T)让模型学习推理能力。
第三步:用长上下文训练,将模型上下文最大长度从4,096拓展到32,768。
(需要注意的是,虽然模型原生最大输入token数为32,768,但通过RoPE系编码(如YaRN)可以将上下文长度扩展到131,072 tokens)

最优超参数预测通过scaling laws实现

2. 后训练

在这里插入图片描述

第一步:长CoT冷启动微调
用Qwen-2.5选择复杂且易评估结果正确性的问题,标记并平衡问题领域。对于这些问题,用QwQ-32B生成一组CoT回答候选,如果QwQ-32B无法回答就用人工标注,最终生成CoT数据集(论文里好像没提这一段是哪来的,我寻思应该是人工标来的)。

第二步:推理RL(对数学和编程任务)
数据集是query-verifier对
GRPO

第三步:用含和不含推理路径的数据来微调(让模型获得切换思考和不思考模式的能力)
在这里插入图片描述
在这一步引入了思考预算机制(thinking budget mechanism):“Considering the limited time by the user, I have to give the solution based on the thinking directly now.\n</think>.\n\n”

第四步:下游任务RL
提高模型的Instruction Following、Format Following、Preference Alignment、Agent Ability和对特定场景(如Retrieval-Augmented Generation (RAG))的能力。

蒸馏:
第一步:Off-policy Distillation:就是常规的大模型蒸馏操作,用大模型的输出来蒸馏小模型。
第二步:On-policy Distillation:用小模型的输出来跟大模型对齐(KL散度),提升小模型的效果。

3. 实验结果

1. 预训练阶段

旗舰大模型:
在这里插入图片描述

Qwen3-32B-Base:
在这里插入图片描述

蒸馏出的小模型:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

2. 后训练阶段

1. 数据集

多语言数据集:
在这里插入图片描述

2. 对比实验结果

旗舰模型思考版:
在这里插入图片描述

旗舰模型不思考版:
在这里插入图片描述

Qwen3-32B:
在这里插入图片描述

在这里插入图片描述

小模型:
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

3. 实验分析

增加thinking budget的token,会提升模型效果(这不是废话吗)(但有时一些结论不言而喻的实验也是得做的,也是有其意义的,也是有可能出现反常识结果的,但是显然这个不是):
在这里插入图片描述

证明On-Policy Distillation的效果(跟直接RL对比)
在这里插入图片描述

stage2、3、4的效果:
在这里插入图片描述

在这里插入图片描述


  1. 我之前写过论文阅读笔记:Re 79 读论文:RoPE RoFormer: Enhanced Transformer with Rotary Position Embedding ↩︎

### 解决 `ModuleNotFoundError` 错误 当遇到 `ModuleNotFoundError: No module named &#39;qwen_vl_utils&#39;` 的错误时,这通常意味着该模块未被正确安装或路径配置不正确。以下是几种可能的解决方案: #### 1. 确认安装命令执行成功 确保已经按照说明文档中的指导完成了所有必要的包安装操作[^2]。 ```bash pip install qwen_vl_utils ``` 如果上述命令未能解决题,则可以尝试指定版本号或者从源码编译安装。 #### 2. 验证虚拟环境激活情况 确认当前使用的Python解释器确实是在创建并激活了特定于项目的Conda环境中运行的。可以通过以下方式验证: ```python import sys print(sys.executable) ``` 这段代码会打印出正在使用的Python可执行文件的位置。对于本项目而言,应该指向类似于 `/path/to/miniconda/envs/swift/bin/python` 的位置。 #### 3. 检查依赖关系冲突 有时候不同库之间可能存在版本兼容性题。建议查看是否有其他已安装软件包与所需工具存在冲突,并考虑更新至最新稳定版或是回退到之前的工作版本。 #### 4. 尝试重新启动开发环境 某些情况下IDE缓存可能导致加载失败的情况发生,在完成以上步骤之后不妨重启编辑器试试看能否正常识别新加入的库。 #### 5. 使用绝对导入语句 为了防止相对路径引起的任何潜在题,可以在脚本开头处显式指明工作目录以及采用完整的包名来进行导入: ```python import os os.chdir(&#39;/full/path/to/project/root&#39;) from qwen_vl_utils import some_function_or_class ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

诸神缄默不语

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值