重磅发布：阿里巴巴 Qwen3 —— 引领全球开源大模型新潮流

最新推荐文章于 2025-12-04 17:20:28 发布

原创最新推荐文章于 2025-12-04 17:20:28 发布 · 1.3k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#开源 #大模型 #语言模型

重磅发布：阿里巴巴 Qwen3 —— 引领全球开源大模型新潮流

最近，AI领域迎来了一次重磅发布：阿里巴巴正式推出全新一代大模型 Qwen3！

在全球 AI 竞争日益激烈的背景下，阿里巴巴以开源的方式向全球开发者提供了 Qwen3 全系列模型，包括 6 款稠密模型（Dense）和 2 款混合专家模型（MoE）。覆盖从轻量化到旗舰级的多种规模，满足从科研到工业生产的多样化需求。

这一系列模型的开源标志着中国 AI 技术的又一次全球化突破，同时也为开发者提供了前沿工具，降低了进入 AI 领域的技术门槛。

Qwen3 系列模型共分为以下两大类：

1. 稠密模型（Dense Models）：

Qwen3-0.6B：适合轻量化应用，如移动端部署。
Qwen3-1.7B、4B、8B：适配桌面端应用，性能与算力成本平衡。
Qwen3-14B、32B：企业级大规模部署的理想选择。

2. 混合专家模型（MoE Models）：

Qwen3-30B-A3B：激活仅需 30 亿参数，性能超越传统大模型。
Qwen3-235B-A22B：旗舰版模型，总参数 2350 亿，激活参数仅 22 亿，显存占用仅为同类模型的 1/3。

Qwen3 的核心亮点

1. 双模式推理：快思考与慢思考的结合

Qwen3 首次引入了两种推理模式：

思考模式：逐步推理，适合复杂问题的严谨分析，例如数学推导、逻辑推理和代码生成。
非思考模式：近乎即时响应，适用于对速度要求较高的任务，如通用对话和快速问答。

用户可通过 /think 和 /no_think 指令动态切换推理模式，在深度与速度之间灵活权衡。同时，Qwen3 的思考预算管理机制可根据任务复杂度动态分配算力，实现稳定高效的推理性能。

2. 多语言支持：覆盖 119 种语言

Qwen3 支持包括英语、中文（简体、繁体、粤语）、阿拉伯语、法语、日语、韩语在内的 119 种语言和方言。这一能力使其能够满足国际化应用需求，无论是多语言翻译还是本地化任务，Qwen3 都能提供卓越的表现。

3. 开源与商用：降低技术使用门槛

Qwen3 全系基于 Apache 2.0 协议开源，允许用户自由修改和商用。无论是个人开发者、初创企业，还是科研机构，都可以以极低的成本使用这一顶级模型。

4. 强大的 Agent 能力

Qwen3 优化了对 AI Agent 的支持，具备强大的工具调用（Function Calling）能力。结合 Qwen-Agent 框架，用户可以轻松实现多智能体任务协作，显著降低开发复杂度。

技术细节揭秘：从预训练到后训练

Qwen3 的卓越性能源于其先进的训练架构和技术创新。以下是模型的核心技术细节：

1. 海量预训练数据

Qwen3 的预训练数据量高达 36 万亿 tokens，是上一代 Qwen2.5 的两倍。数据来源涵盖：

网络文本、PDF 文档等多模态内容。
专项领域数据（如数学、编程、STEM）。
合成数据（通过 Qwen2.5-Math 和 Qwen2.5-Coder 生成的教科书、代码片段、问答对等）。

2. 三阶段预训练流程

S1 阶段

在超过 30 万亿 tokens 上构建基础语言能力，支持 4K token 的上下文长度。

S2 阶段

增加 STEM 和编程数据比例，在额外的 5 万亿 tokens 上进一步训练。

S3 阶段

扩展上下文长度至 32K，支持超长文本输入。

3. 四阶段后训练流程

为了同时实现复杂推理与快速响应能力，Qwen3 实施了以下四阶段后训练策略：

长思维链冷启动：微调模型的基础推理能力。
长思维链强化学习：通过奖励机制优化模型的推理路径。
思维模式融合：将快速响应能力无缝整合到推理模型中。
通用强化学习：覆盖 20 多个任务领域，进一步增强模型的通用性和稳定性。

4. 架构优化：高性能与低成本的平衡

稠密模型（Dense Models）：小参数量实现大模型性能。例如 Qwen3-4B 性能媲美 Qwen2.5-72B。
混合专家（MoE Models）：仅激活 10% 参数即可达到同类模型的性能，大幅降低训练与推理成本。

模型性能怎么样？看数据说话！

旗舰模型 Qwen3-235B-A22B 在代码、数学以及通用能力等基准测试中，表现极具竞争力，对标 DeepSeek-R1、OpenAI o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型毫不逊色。

更令人惊喜的是，小型 MoE 模型 Qwen3-30B-A3B 仅激活30亿参数，却拥有接近甚至超越传统大模型（如 QwQ-32B）的表现。即使是轻量级的 Qwen3-4B 也能媲美 Qwen2.5-72B-Instruct 的性能。

模型下载

OpenCSG社区:
https://opencsg.com/models/Qwen/Qwen3-8B
HF社区:
https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

关于 OpenCSG
OpenCSG 是全球领先的开源大模型社区平台，致力于打造开放、协同、可持续的 AI 开发者生态。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的一站式托管、协作与共享服务，具备业界领先的模型资产管理能力，支持多角色协同和高效复用。

平台已汇聚 10 万+ 高质量 AI 模型，覆盖自然语言处理（NLP）、计算机视觉（CV）、语音识别与合成、多模态等核心方向，广泛服务于科研机构、企业与开发者群体，配套提供算力支持与数据基础设施。

作为全球第二大开源 AI 社区，OpenCSG 正在以“开源生态 + 企业级落地”为双轮驱动，重新定义 AI 模型社区的价值体系。我们正积极推动构建具有中国特色的开源大模型生态闭环，通过开放协作机制，持续赋能科研创新与产业应用，加速中国 AI 在全球生态中的技术自主与话语权提升。