阿里通义团队正式发布并开源了下一代基础模型架构Qwen3-Next,以及基于这个架构的Qwen3-Next-80B-A3B系列模型。这玩意儿有多炸裂呢?一个总参数量高达800亿的巨无霸模型,跑起来的时候居然只激活区区30亿参数,性能却能直接对标自家2350亿参数的旗舰版大哥,甚至在好几个硬核测试里,把谷歌的Gemini-2.5-Flash-Thinking给甩在了身后。

在大家还在为飞涨的算力成本和无限膨胀的模型规模头疼时,Qwen3-Next用一套骚操作告诉世界:咱们可以“用更少的资源干更多的事儿”,给AI的可持续发展指了条明路。
Qwen3-Next模型的训练成本,比起自家的密集模型Qwen3-32B,直接打了个骨折,大降超过90%。而在处理长文本的推理上,吞吐量更是提升了10倍不止,给未来大模型的“省钱”和“加速”立下了一个全新的标杆。
这波技术操作,属实是把牙膏挤爆了
Qwen3-Next这套架构,可以说是当前大模型设计的“天花板”之一了,它的牛X之处主要体现在四个“黑科技”上:混合注意力机制、高稀疏MoE (混合专家)结构、训练稳定性优化以及多Token预测机制。正是这四大金刚,合力撑起了Qwen3-Next那变态的效率。

传统的Transformer架构处理长文章时,计算量会暴增,跟滚雪球似的,脑子转不过来。后来有人搞了线性注意力,处理长文是快了,但记忆力又不太行,容易忘事。Qwen3-Next就想了个绝妙的点子:我全都要!它把Gated DeltaN

最低0.47元/天 解锁文章
771

被折叠的 条评论
为什么被折叠?



