重磅发布:阿里巴巴 Qwen3 —— 引领全球开源大模型新潮流
最近,AI领域迎来了一次重磅发布:阿里巴巴正式推出全新一代大模型 Qwen3!
在全球 AI 竞争日益激烈的背景下,阿里巴巴以开源的方式向全球开发者提供了 Qwen3 全系列模型,包括 6 款稠密模型(Dense)和 2 款混合专家模型(MoE)。覆盖从轻量化到旗舰级的多种规模,满足从科研到工业生产的多样化需求。
这一系列模型的开源标志着中国 AI 技术的又一次全球化突破,同时也为开发者提供了前沿工具,降低了进入 AI 领域的技术门槛。
Qwen3 系列模型共分为以下两大类:
1. 稠密模型(Dense Models):
- Qwen3-0.6B:适合轻量化应用,如移动端部署。
- Qwen3-1.7B、4B、8B:适配桌面端应用,性能与算力成本平衡。
- Qwen3-14B、32B:企业级大规模部署的理想选择。
2. 混合专家模型(MoE Models):
- Qwen3-30B-A3B:激活仅需 30 亿参数,性能超越传统大模型。
- Qwen3-235B-A22B:旗舰版模型,总参数 2350 亿,激活参数仅 22 亿,显存占用仅为同类模型的 1/3。

Qwen3 的核心亮点
1. 双模式推理:快思考与慢思考的结合
Qwen3 首次引入了两种推理模式:
- 思考模式:逐步推理,适合复杂问题的严谨分析,例如数学推导、逻辑推理和代码生成。
- 非思考模式:近乎即时响应,适用于对速度要求较高的任务,如通用对话和快速问答。
用户可通过 /think 和 /no_think 指令动态切换推理模式,在深度与速度之间灵活权衡。同时,Qwen3 的思考预算管理机制可根据任务复杂度动态分配算力,实现稳定高效的推理性能。

2. 多语言支持:覆盖 119 种语言
Qwen3 支持包括 英语、中文(简体、繁体、粤语)、阿拉伯语、法语、日语、韩语 在内的 119 种语言和方言。这一能力使其能够满足国际化应用需求,无论是多语言翻译还是本地化任务,Qwen3 都能提供卓越的表现。

3. 开源与商用:降低技术使用门槛
Qwen3 全系基于 Apache 2.0 协议开源,允许用户自由修改和商用。无论是个人开发者、初创企业,还是科研机构,都可以以极低的成本使用这一顶级模型。
4. 强大的 Agent 能力
Qwen3 优化了对 AI Agent 的支持,具备强大的工具调用(Function Calling)能力。结合 Qwen-Agent 框架,用户可以轻松实现多智能体任务协作,显著降低开发复杂度。
技术细节揭秘:从预训练到后训练
Qwen3 的卓越性能源于其先进的训练架构和技术创新。以下是模型的核心技术细节:
1. 海量预训练数据
Qwen3 的预训练数据量高达 36 万亿 tokens,是上一代 Qwen2.5 的两倍。数据来源涵盖:
- 网络文本、PDF 文档等多模态内容。
- 专项领域数据(如数学、编程、STEM)。
- 合成数据(通过 Qwen2.5-Math 和 Qwen2.5-Coder 生成的教科书、代码片段、问答对等)。
2. 三阶段预训练流程
S1 阶段
在超过 30 万亿 tokens 上构建基础语言能力,支持 4K token 的上下文长度。
S2 阶段
增加 STEM 和编程数据比例,在额外的 5 万亿 tokens 上进一步训练。
S3 阶段
扩展上下文长度至 32K,支持超长文本输入。
3. 四阶段后训练流程
为了同时实现复杂推理与快速响应能力,Qwen3 实施了以下四阶段后训练策略:
- 长思维链冷启动:微调模型的基础推理能力。
- 长思维链强化学习:通过奖励机制优化模型的推理路径。
- 思维模式融合:将快速响应能力无缝整合到推理模型中。
- 通用强化学习:覆盖 20 多个任务领域,进一步增强模型的通用性和稳定性。
4. 架构优化:高性能与低成本的平衡
- 稠密模型(Dense Models):小参数量实现大模型性能。例如 Qwen3-4B 性能媲美 Qwen2.5-72B。
- 混合专家(MoE Models):仅激活 10% 参数即可达到同类模型的性能,大幅降低训练与推理成本。
模型性能怎么样?看数据说话!
旗舰模型 Qwen3-235B-A22B 在代码、数学以及通用能力等基准测试中,表现极具竞争力,对标 DeepSeek-R1、OpenAI o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型毫不逊色。


更令人惊喜的是,小型 MoE 模型 Qwen3-30B-A3B 仅激活30亿参数,却拥有接近甚至超越传统大模型(如 QwQ-32B)的表现。即使是轻量级的 Qwen3-4B 也能媲美 Qwen2.5-72B-Instruct 的性能。
模型下载
- OpenCSG社区:
https://opencsg.com/models/Qwen/Qwen3-8B - HF社区:
https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
关于 OpenCSG
OpenCSG 是全球领先的 开源大模型社区平台,致力于打造开放、协同、可持续的 AI 开发者生态。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务,具备业界领先的 模型资产管理能力,支持多角色协同和高效复用。
平台已汇聚 10 万+ 高质量 AI 模型,覆盖自然语言处理(NLP)、计算机视觉(CV)、语音识别与合成、多模态等核心方向,广泛服务于科研机构、企业与开发者群体,配套提供 算力支持与数据基础设施。
作为全球第二大开源 AI 社区,OpenCSG 正在以“开源生态 + 企业级落地”为双轮驱动,重新定义 AI 模型社区的价值体系。我们正积极推动构建 具有中国特色的开源大模型生态闭环,通过开放协作机制,持续赋能科研创新与产业应用,加速中国 AI 在全球生态中的 技术自主与话语权提升。
1006

被折叠的 条评论
为什么被折叠?



