从零开始：用Qwen3-Coder在H100上构建你的智能编程工作流

原创

于 2025-08-25 11:35:22 发布 · 1.5k 阅读

·

46

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #AI编程 #开源

在前不久，阿里通义千问发布了一系列 Qwen 模型。其中，Qwen3-Coder 是一个智能体（agentic） 的专家混合（Mixture of Experts, MoE） 模型，拥有 4050 亿总参数和 350 亿激活参数。它专为高性能编程辅助和多轮工具使用而设计。从 Kimi-K2 到 Qwen3-Coder，这两款模型在不到两周的时间内相继发布，这表明各团队正在积极地将专门的开源智能体编程模型推向开发者。Qwen3-Coder 的独特之处在于其较低的总参数量（例如，比 Kimi K2 的 1 万亿参数少）和令人印象深刻的基准测试表现。

Qwen3于今年五月发布，在其技术报告的结论中提到：“我们将致力于改进模型架构和训练方法，以实现有效的压缩、扩展至极长上下文等目的。此外，我们计划增加用于强化学习的计算资源，特别关注从环境反馈中学习的基于智能体的强化学习系统。”

七月发布的更新版Qwen3模型涉及预训练和强化学习（RL）阶段，它使用了修改版的群组相对策略优化（Group Relative Policy Optimization, GRPO），称为群组序列策略优化（Group Sequence Policy Optimization, GSPO），以及一个可扩展的系统，能够并行运行 2 万个独立环境。

Qwen3 的部分特点：

4050 亿参数的专家混合模型，其中 350 亿为激活参数
160 个专家，每个 token 激活 8 个
25.6 万 token 的上下文长度，使用 YaRN 可扩展到 100 万
在长程任务上 SWE-bench 验证得分很高（在 500 轮中得分为 69.6%，而 Claude-Sonnet-4 在 500 轮中为 70.4%）
使用群组序列策略优化进行训练
较小的 30B A3B Instruct 变体可在单个 H100 GPU 上运行
通义千问 Code CLI 作为 Gemini CLI 的分支开源

接下来，我们快速了解一下 Qwen3-Coder 内部结构，然后动手部署，让Qwen3 Coder跑起来。

模型概述

专家混合（MoE）：MoE 架构可以在增加模型规模和质量的同时降低计算成本。它采用稀疏的前馈神经网络（FFN）层（称为“专家”），并辅以一个门控机制，将 token 路由到 top

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。