在前不久,阿里通义千问发布了一系列 Qwen 模型。其中,Qwen3-Coder 是一个智能体(agentic) 的专家混合(Mixture of Experts, MoE) 模型,拥有 4050 亿总参数和 350 亿激活参数。它专为高性能编程辅助和多轮工具使用而设计。从 Kimi-K2 到 Qwen3-Coder,这两款模型在不到两周的时间内相继发布,这表明各团队正在积极地将专门的开源智能体编程模型推向开发者。Qwen3-Coder 的独特之处在于其较低的总参数量(例如,比 Kimi K2 的 1 万亿参数少)和令人印象深刻的基准测试表现。
Qwen3于今年五月发布,在其技术报告的结论中提到:“我们将致力于改进模型架构和训练方法,以实现有效的压缩、扩展至极长上下文等目的。此外,我们计划增加用于强化学习的计算资源,特别关注从环境反馈中学习的基于智能体的强化学习系统。”
七月发布的更新版Qwen3模型涉及预训练和强化学习(RL)阶段,它使用了修改版的群组相对策略优化(Group Relative Policy Optimization, GRPO),称为群组序列策略优化(Group Sequence Policy Optimization, GSPO),以及一个可扩展的系统,能够并行运行 2 万个独立环境。
Qwen3 的部分特点:
- 4050 亿参数的专家混合模型,其中 350 亿为激活参数
- 160 个专家,每个 token 激活 8 个
- 25.6 万 token 的上下文长度,使用 YaRN 可扩展到 100 万
- 在长程任务上 SWE-bench 验证得分很高(在 500 轮中得分为 69.6%,而 Claude-Sonnet-4 在 500 轮中为 70.4%)
- 使用群组序列策略优化进行训练
- 较小的 30B A3B Instruct 变体可在单个 H100 GPU 上运行
- 通义千问 Code CLI 作为 Gemini CLI 的分支开源
接下来,我们快速了解一下 Qwen3-Coder 内部结构,然后动手部署,让Qwen3 Coder跑起来。
模型概述
- 专家混合(MoE):MoE 架构可以在增加模型规模和质量的同时降低计算成本。它采用稀疏的前馈神经网络(FFN)层(称为“专家”),并辅以一个门控机制,将 token 路由到 top

最低0.47元/天 解锁文章
1225

被折叠的 条评论
为什么被折叠?



