01 引言
2025年4月29日,Qwen 官方团队正式发布了最新一代大语言模型:「Qwen3」。其中包含8款模型(2个混合专家模型和6个稠密模型),在性能、成本效益及灵活性方面实现了显著突破,成为全球开源AI领域的新标杆,一经发布迅速霸榜。
02 Qwen3介绍
Qwen3是Qwen大语言模型系列的新一代产品,在自然语言处理和多模态能力上取得显著进展。它基于前代成功经验,通过更大数据集、强化架构和优化微调,处理复杂推理、语言理解与生成任务。
Qwen3有全系列的密集型和专家混合(MoE)模型,在推理、指令遵循、智能体能力和多语言支持等方面有重大突破,支持超100种语言,可在思考与非思考模式间切换,推理能力提升,与人类偏好对齐度高,智能体能力先进。不同参数规模的模型在各基准测试中表现出色,部分小模型性能超越同类型大模型。
Qwen3wen3采用混合专家架构(MoE),旗舰模型Qwen3-235B-A22B总参数量达2350亿,但每次推理仅激活约220亿参数(占总参数的9%),其核心创新是混合思考模式。并在多项国际评测中刷新纪录,无论是在数学推理、代码生成还是工具调用能力方面都拿下了不错的成绩。部署成本仅为同类模型的25%-35%。
Qwen3的发布有望推动大模型研发进步,用户可通过网页和移动应用体验。
03 重要亮点
卓越的性能表现:
Qwen3不同参数规模的模型展现出强大性能。如Qwen3 - 235B - A22B在编码、数学等基准测试中与DeepSeek - R1等领先模型相当;Qwen3 - 30B - A3B虽激活参数仅为QwQ - 32B的十分之一,却超越了它;小巧的Qwen3 - 4B性能与大得多的Qwen2.5 - 72B - Instruct相当。这表明Qwen3在模型效率和性能上取得了良好平衡,不同规模模型能满足多样需求。
独特的混合思考模式:
Qwen3支持思考与非思考两种模式。思考模式下,模型对复杂问题逐步推理,适合数学、编码等深度分析任务;非思考模式能快速响应简单任务。这种灵活切换可让用户依任务调整“思考”程度,还能有效管理思考预算,平衡成本与推理质量。比如复杂数学问题用思考模式,日常聊天用非思考模式。
广泛的多语言支持:
Qwen3支持119种语言和方言,涵盖印欧语系、汉藏语系等众多语系。这极大拓展了其在全球的应用范围,使不同语言文化背景的用户都能充分利用其功能。例如,欧洲、亚洲、非洲等不同地区的用户,能用各自母语与模型高效交互,进行翻译、指令遵循等操作。
优化的智能体能力:
Qwen3针对编码和智能体驱动任务显著优化,强化了对MCP(多上下文处理)的支持。在复杂智能体工作流程中,能有效推理、与环境交互。比如在软件开发场景中,可精准调用外部工具,完成代码生成、调试等复杂任务,在开源模型中达到领先水平。