【大模型基座】Qwen3技术报告发布

最新推荐文章于 2025-11-25 12:11:01 发布

原创最新推荐文章于 2025-11-25 12:11:01 发布 · 1.3k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #知识图谱 #大数据 #数据库 #java

报告下载地址：

主要内容

模型架构：Qwen3系列包括6个密集模型（Qwen3-0.6B到Qwen3-32B）和2个MoE模型（Qwen3-30B-A3B和Qwen3-235B-A22B）。这些模型的架构类似于Qwen2.5，但进行了优化和改进，包括使用GroupedQueryAttention、SwiGLU、Rotary Positional Embeddings和RMSNorm等。

预训练阶段：预训练分为三个阶段：

通用阶段（S1）：在超过30万亿token的数据上进行训练，覆盖119种语言和方言。
推理阶段（S2）：增加STEM、编程、推理和合成数据的比例，进行约5T高质量token的训练。
长上下文阶段：收集高质量的长上下文语料库，将上下文长度扩展到32,768 token。

后训练阶段：后训练包括四个阶段：

长链式思维冷启动：构建一个包含数学、编程、逻辑推理和一般STEM问题的综合数据集。
推理强化学习：使用GRPO算法更新模型参数，采用大规模批处理和高的每个查询展开次数。
思维模式融合：设计聊天模板以融合思维和非思维模式，并引入思维预算机制。
通用强化学习：建立复杂的奖励系统，涵盖超过20个不同任务，使用基于规则的奖励、基于参考答案的模型奖励和基于人类偏好的模型奖励。

强到弱蒸馏：分为两个阶段：

离线蒸馏：结合教师模型的输出进行响应蒸馏。
在线蒸馏：生成在线序列进行微调，最小化KL散度。

实验设计

数据收集：预训练数据集包含36万亿token，覆盖119种语言和方言。通过Qwen2.5-VL模型从PDF文档中提取文本，并使用Qwen2.5-Math和Qwen2.5-Coder模型生成合成数据。
实验设置：评估基线模型在多个基准测试上的性能，包括通用任务、数学和STEM任务、编程任务和多元语言任务。使用相同的评估管道和广泛使用的评估设置进行公平比较。
样本选择：在冷启动阶段，生成N个候选响应并通过人工标注筛选出高质量的响应。在推理强化学习阶段，收集3,995个查询-验证器对。
参数配置：Qwen3-235B-A22B模型总共有235亿参数，其中22亿被激活。其他模型的参数数量根据其规模进行调整。

结果与分析

预训练评估：Qwen3-235B-A22B模型在大多数任务上优于其他开源和专有模型，特别是在数学、编程和推理任务上。
后训练评估：

思维模式：Qwen3-235B-A22B在大多数基准测试上表现出色，接近或超过了专有模型。
非思维模式：Qwen3-235B-A22B在非思维模式下也表现出色，超过了其他开源模型。
轻量级模型：Qwen3-30B-A3B、Qwen3-14B和其他较小规模的模型在性能和计算成本上均表现出色，证明了强到弱蒸馏方法的有效性。

总体结论

Qwen3系列包括思维和非思维两种模式，能够在单一模型中动态管理复杂推理任务的token数量。通过在大规模数据集上进行预训练和后训练，Qwen3在代码生成、数学推理、代理任务和多元语言任务上取得了最先进的性能。未来的研究方向包括扩大预训练数据集、改进模型架构和训练方法，以及增加强化学习的计算资源。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述