阿里云栖大会发布Qwen3-Max等重磅模型:参数破万亿刷新多项纪录,推理增强版达奥数满分水平
2025年9月24日,备受瞩目的阿里云栖大会在杭州正式拉开帷幕。作为阿里云展示前沿科技实力的年度盛会,今年的大会以人工智能为核心焦点,全面呈现了从基础模型研发到行业应用落地的完整技术生态。在开幕式上,阿里通义大模型团队发布了包括Qwen3-Max、Qwen3-VL、Qwen3-Coder在内的多款重量级AI模型,其中参数规模突破万亿的Qwen3-Max更是一举刷新多项全球评测纪录,引发业界广泛关注。
开源生态稳居全球首位,技术布局全面升级
据最新数据显示,基于通义千问系列模型进行二次开发的衍生模型数量已达到17万款,在Hugging Face全球模型衍生数量排行榜上超越Meta的Llama系列,成为全球最具影响力的开源模型体系。这一成绩的背后,是阿里持续深耕开源生态的战略成果。就在大会开幕前一天,通义团队已率先开源Qwen3-Omni全模态模型、Qwen3-TTS语音生成模型及Qwen-Image-Edit-2509图像编辑模型,三款产品均在各自领域达到行业领先水平,为本次大会的技术发布奠定了坚实基础。
Qwen3-Max:万亿参数铸就AI性能新高峰
作为本次发布的旗舰产品,Qwen3-Max以1万亿总参数规模成为阿里迄今为止最强大的AI模型。该模型采用Qwen3系列独创的MoE(混合专家)架构,通过global-batch load balancing loss技术实现预训练过程的极致稳定性,全程无loss尖刺现象,无需训练回退或数据分布调整即可完成36万亿tokens的训练任务。在PAI-FlashMoE多级流水并行策略优化下,模型训练效率较上一代提升30%,长序列处理采用ChunkFlow策略使吞吐性能达到传统方案的3倍,支持100万token上下文长度的训练需求。
在性能表现上,Qwen3-Max-Instruct版本展现出惊人实力。在LMArena全球文本模型排行榜中,预览版已超越GPT-5-Chat位列第三;正式版在代码开发、智能体任务等核心能力上进一步突破,在SWE-Bench Verified编程基准测试中获得69.6分,在Tau2-Bench智能体工具调用评测中以74.8分超越Claude Opus 4和DeepSeek-V3.1。
如上图所示,Qwen3-Max-Instruct在知识问答(SuperGPQA)、数学推理(AIME25)、实时编程(LiveCodeBench v6)等多维度测试中均处于领先位置。这一性能表现充分体现了万亿参数模型在复杂任务处理上的压倒性优势,为企业级AI应用提供了更强算力支撑。
特别值得关注的是,通义团队还预告了Qwen3-Max的推理增强版本Qwen3-Max-Thinking。该版本在数学推理能力上实现重大突破,不仅在AIME 25和HMMT等顶级数学竞赛基准测试中获得满分,更达到国际奥林匹克数学竞赛的解题水平,标志着AI在复杂逻辑推理领域已接近人类专家水准。
Qwen3-VL-235B:多模态交互进入"万物理解"时代
作为Qwen3系列的视觉语言模型旗舰产品,Qwen3-VL-235B通过2350亿参数规模构建了新一代多模态智能系统。该模型在10个维度的综合评估中全面超越Gemini 2.5 Pro和GPT-5等闭源竞品,同时刷新开源模型最佳纪录,尤其在高清图像解析和细粒度识别任务中表现突出。
技术升级方面,Qwen3-VL实现了八大核心能力突破:视觉智能体功能支持GUI界面操作与工具调用,在OS World评测中达到世界顶级水平;文本能力与Qwen3-235B纯文本模型持平,实现"模态无短板";视觉编程功能可将设计图直接转换为Draw.io/HTML/CSS/JS代码;空间感知能力从2D坐标升级到3D grounding,支持物体方位判断与视角变化分析;上下文长度原生支持256K token并可扩展至百万级,实现两小时视频的秒级定位;Thinking版本强化STEM领域推理能力,在MathVision等评测中位居榜首;物体识别覆盖名人、商品、动植物等专业领域;OCR支持语言从10种扩展至32种,显著提升复杂场景下的生僻字与古籍识别准确率。
Qwen3 Coder Plus:编程效率与安全的双重突破
针对开发者群体,阿里推出Qwen3 Coder Plus编程模型,作为开源Qwen3 Coder 480B A35B的增强版本,采用闭源API服务形式提供商业级编程能力。该模型通过与Qwen Code、Claude Code系统联合训练,在CLI应用开发领域实现显著突破,同时优化推理速度与任务执行效率,代码安全性检测能力大幅提升,推动AI编程向负责任的技术应用方向发展。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



