4 月 29 日凌晨,Qwen3 模型「家族」终于正式亮相,共 8 款混合推理模型全部开源, 仅仅一天的时间便在 GitHub 斩获近 20k stars,而除了极高的讨论热度外,Qwen3 更是凭借性能的提升与部署成本的下探,一举问鼎开源大模型王座。
- 开源版本包含 2 个 MoE 模型:Qwen3-235B-A22B 和 Qwen3-30B-A3B;6 个 Dense 模型:Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。
根据官方发布的数据,旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,表现出与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 相媲美的能力。 值得一提的是,Qwen3-30B-A3B 的激活参数数量仅为 QwQ-32B 的 10%,但表现更胜一筹,甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。

面对性能表现一举超越 OpenAI-o1 与 DeepSeek-R1 两大顶流的 Qwen3,全球开发者跃跃欲试,不少已经发布了一手实测评价,可谓是「好评如潮」。

*图源:X 用户 Hasan Toor*

最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



