大模型技术赛道再迎重磅突破!通义千问Qwen团队于近日正式发布新一代开源模型架构Qwen3-Next,通过创新融合混合注意力机制与高稀疏度MoE技术路线,在800亿参数规模下实现仅30亿激活参数的极致效率,彻底重构长上下文场景下的模型性价比基准。该系列模型已开放模型仓库(仓库地址:https://gitcode.com/hf_mirrors/Qwen/Qwen3-Next-80B-A3B-Thinking)及在线体验服务,标志着大模型产业正式进入"超大参数规模×超长上下文"双轮驱动的技术新纪元。
Qwen团队在技术白皮书明确指出,当前大模型发展正呈现两大核心趋势:Context Length Scaling(上下文长度扩展)与Total Parameter Scaling(总参数规模扩展)。为应对这两大趋势带来的训练成本压力与推理效率瓶颈,研发团队耗时半年打造全新Qwen3-Next架构,相较上一代Qwen3的MoE结构实现四大核心升级:首创混合注意力机制提升长文本理解能力、构建超高稀疏度MoE降低激活成本、开发训练稳定性增强套件、部署多token预测加速推理流程。这些创新使大模型首次在800亿参数级别实现"训练成本降十倍,推理速度升十倍"的跨越式发展。
架构革新:混合注意力与超高稀疏度的完美融合
Qwen3-Next的突破性进展源于其颠覆性的架构设计理念。针对传统注意力机制在长序列处理中的效率困境,研发团队创造性提出75% Gated DeltaNet与25%标准注意力的混合架构方案,通过动态门控机制实现两种注意力模式的优势互补。
如上图所示,该架构左侧展示了Gated DeltaNet与标准注意力的混合配比结构,右侧呈现512专家的超高稀疏度MoE路由机制。这一创新架构充分体现了Qwen团队对长上下文建模难题的深刻洞察,为开发者提供了兼顾性能与效率的最优技术路径。
在注意力机制优化方面,Gated DeltaNet模块展现出显著优势:通过门控动态路由机制,其在32K上下文长度下的建模能力超越滑动窗口注意力30%,较Mamba2实现15%的性能提升。而保留的25%标准注意力层则通过三大技术创新突破瓶颈:采用输出门控机制缓解低秩问题,将单头维度扩展至256维提升表示能力,仅对前25%序列位置施加RoPE旋转位置编码以降低计算开销。这种组合策略使模型在处理256K超长文本时仍保持线性计算复杂度。
MoE架构的革新同样令人瞩目。Qwen3-Next将专家数量从Qwen3的128个大幅扩展至512个(包含10个路由专家+1个共享专家),通过全局负载均衡算法实现3.7%的极低激活率。实验数据显示,即便专家数量增加4倍,新架构仍能通过动态路由机制将训练损失稳定降低12%,完美解决了传统MoE随专家数量增加导致的优化困难问题。
训练突破:从32B到80B的十倍效率跃迁
基于全新架构,Qwen团队成功训练出Qwen3-Next-80B-A3B-Base基础模型,在800亿总参数规模下创造了"训练成本仅为Qwen3-32B十分之一,推理吞吐反超十倍"的业界奇迹。性能评测显示,该基础模型在MMLU、GSM8K等权威基准测试中达到甚至小幅超越Qwen3-32B稠密模型水平,而其训练仅消耗不到30万GPU小时,较32B稠密模型节省90%以上计算资源。
特别值得关注的是长上下文场景下的性能表现。在32K上下文长度测试中,Qwen3-Next-80B-A3B-Base的推理吞吐量达到Qwen3-32B的11.3倍,随着上下文长度扩展至256K,这一优势进一步扩大到15倍以上。这种"长度越长,效率优势越大"的特性,使其成为处理法律文档、代码库分析、医学病例等超长文本场景的理想选择。
指令调优:RLHF技术在MoE架构的突破性应用
在Base模型基础上,Qwen团队同步完成两大进阶版本开发:Qwen3-Next-80B-A3B-Instruct与Qwen3-Next-80B-A3B-Thinking,攻克了混合注意力+高稀疏度MoE架构在强化学习训练(RLHF)中的稳定性难题。研发团队创新设计"渐进式奖励建模"与"专家路由对齐"技术,使RL训练效率提升40%,训练过程中的损失波动幅度降低65%,首次在MoE模型上实现与稠密模型相当的指令跟随能力。
该架构图详细展示了训练稳定优化组件,包括Zero-Centered RMSNorm归一化技术与MoE路由参数初始化策略。这些创新有效解决了QK矩阵范数膨胀问题,为MoE模型的RLHF训练提供了关键技术保障。
Qwen3-Next-80B-A3B-Instruct在指令遵循能力上达到旗舰模型水平,与Qwen3-235B-A22B-Instruct-2507的性能差距缩小至3%以内,而推理速度提升近3倍。在256K超长上下文测试中,其在文档摘要、多轮对话一致性、长程指代消解等任务上的准确率较235B旗舰模型高出8-12个百分点,充分验证了混合注意力机制在长文本理解上的技术优势。
思维链推理:超越闭源模型的认知能力
Qwen3-Next-80B-A3B-Thinking则将MoE架构的推理能力推向新高度。该模型在复杂推理任务上展现出惊人性能:不仅超越训练成本更高的Qwen3-30B-A3B-Thinking-2507和Qwen3-32B-Thinking,更在HumanEval代码生成(78.2% vs 75.6%)、MATH数学推理(52.8% vs 49.3%)等关键基准上超越Google Gemini-2.5-Flash-Thinking。部分指标已逼近235B旗舰模型,其中BBH基准达到79.5%,仅落后Qwen3-235B-A22B-Thinking-2507 2.1个百分点。
特别在需要多步推理的复杂任务中,Qwen3-Next-80B-A3B-Thinking表现出独特优势。在"两阶段数学问题"专项测试中,其通过"问题分解→分步计算→结果验证"的思维链流程,将解题准确率提升至63.7%,较同参数规模模型提高18.4个百分点,展现出接近人类的问题解决思路。
技术启示与产业影响
Qwen3-Next架构的推出,为大模型产业发展提供了三大关键启示:首先,混合注意力机制证明了"专用机制+通用机制"的组合策略是突破长上下文瓶颈的有效路径;其次,超高稀疏度MoE架构颠覆了"参数规模与计算成本正相关"的传统认知;最后,多token预测技术为推理效率优化提供了硬件无关的软件解决方案。这些创新共同构建了"超大参数×超长上下文×超高效率"的新一代技术范式。
展望未来,Qwen团队表示将持续推进两大技术方向:一方面扩展上下文长度至1M(百万token)级别,另一方面探索1.4T参数规模的更高稀疏度架构。随着这些技术的落地,大模型有望在知识图谱构建、多模态长视频理解、全生命周期代码开发等更复杂场景实现突破,推动人工智能产业从"通用能力"向"专业领域深度应用"加速演进。对于开发者而言,Qwen3-Next的开源释放不仅提供了高性能模型选择,更开放了完整的架构设计思路,为行业技术创新提供了宝贵的参考蓝本。
在算力资源日益紧张的今天,Qwen3-Next架构所展现的效率革命,或许正是大模型技术持续健康发展的必由之路。通过智能架构设计而非单纯堆砌算力,AI技术正朝着更加绿色、高效、普惠的方向迈进,这不仅是技术的胜利,更是人类智慧对计算极限的创造性超越。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



