这周 AI 圈的头条,被 Qwen 持续霸榜,短短一周,Qwen 一口气端出来三道主菜,一份甜点:
- • 周一:Qwen3-235B-Instruct 非思考模式(Non-thinking)更新,性能打平或超越一众国内外顶流闭源模型,对标 Claude 4 Opus 的非思考版本。
- • 周三:Qwen3-Coder-480B 登场,参数量高达 480B,Agentic Coding 能力媲美 Claude Sonnet。
- • 周四:虽然没有开源新模型,但基于 Qwen3 大模型打造的翻译模型 Qwen-MT 作为甜点级服务,支持 92 种语言和方言,优于 GPT-4o-mini 和 Gemini 2.5 Flash 等同量级模型。
- • 周五:Qwen3-235B-Instruct 思考模式(Thinking)上线,再次刷新 SOTA 分数,是目前全球最强的开源推理模型,性能对标闭源的 Gemini 2.5 Pro。

这还没完,Qwen 团队已经预告了下周还要继续,暗示会发布 flash 级别的模型,更小、更快、更强。看来这明显是一次「有策划、有预谋」的模型发布,而我只想说:让这样的发布和霸榜,再来的猛烈一点吧!
AI 群里的朋友开玩笑说,现在每天不熬到凌晨不敢睡,以前是怕错过国外的 AI 新闻,现在是怕一觉醒来,Qwen 再次定义 SOTA。
当然,Qwen 并不是有意要熬夜发布,而是真实的 DDL 冲刺。Qwen3-Coder 熬了个通宵,Qwen2-235B-I 赶在周五下午下班前发布(这次轮到国外熬夜了)。毕竟,Qwen 的开源可不是简单地点一下上传,而是帮大家做了巨量的上下游 Infra 社区工作。
这波真得 Respect!Qwen 佬们一定要注意休息啊!flash 模型下周二再发布也不晚的!(狗头)
这样的发布节奏已经不只是「卷」能形容的了,想来想去,我觉得可以用「饱和式开源」来形容 Qwen 的工作。
先看最新发布的模型
距离 4 月底的 Qwen3 发布过去不到 3 个月,Qwen 就发布了这一次「小更新」。这次更新,Qwen3 的混合思维模式重新拆分回对话和推理两个模型,推理思维链的长度扩展到了最长 80k 还多:

在推理模式下,Qwen3-Instruct- 的分数相比于 Qwen3 大幅提升,在 AIME2024、LiveCodeBench v2、Arena-Hard 等多个测评集上反超了 Gemini 2.5 Pro 和 Claude 4 Sonnet 等闭源模型:

这是更详细的分数:

QwenChat 网站上已经更新到了最新的模型版本,可以免费体验:Qwen Chat
对于有条件自己部署的小伙伴,也可以到 HuggingFace 或魔搭获取模型:
- • https://huggingface.co/Qwen/
- • https://modelscope.cn/models/qwen/
卷的尽头还是阿里,为什么大家会选择 Qwen?
除了模型成绩,我今天想多聊一点 Qwen 的开源影响。
昨天有朋友问:「Qwen3 真能对标 Gemini 2.5 Pro 吗?」
我回答:「当一个 200B 级别的开源模型,被拉出来跟闭源 SOTA 进行比较的时候,它就已经不输了。」
很多普通用户对 Qwen 体会和感受并不明显,就说我是「千问吹」。我觉得挺荣幸,就是要吹,不吹怎么让 Qwen 有动力继续开源。
我觉得 Qwen 的成功在于做到了:尺寸全、场景全、开发者友好。
Qwen 现在是全球衍生模型生态最庞大的基础模型。其实早在 Qwen2.5 时代,Qwen 就已经超越了 Llama 的衍生模型数量,位居全球第一。今年以来,Qwen 也在不断巩固了自己开源霸主优势。
在 HuggingFace 上,基于 Qwen 的模型数量已经接近 15 万个,占到整个 HuggingFace 上所有模型的 7.9%。

作为对比,Llama 的衍生模型有 13.5 万个,BERT 有 4.2 万个,Mistral 有 3.5 万个,GPT 有 3.4 万个。
要知道,Qwen 官方也不过才发布了 327 个模型,相当于每个模型都衍生出了成百上千个第三方模型。
**这说明什么?**说明有海量的开发者在用真金白银的 GPU Hour 投票,自发地基于 Qwen 训练自己的模型。
为什么是 Qwen?
-
- 第一是尺寸全,从 0.5B 到 72B(以及 33B 的 Coder 模型),Qwen3 覆盖了几乎所有场景,且在每个尺寸上都能接近 SOTA 成绩。
-
- 第二则是场景全,除了文本模型,Qwen 还陆续开源了视觉模型、TTS 模型等多模态模型。
-
- 更重要的则是开发者友好。相比于有些模型只扔个权重,开发者要自己想办法适配框架,量化、踩坑。Qwen 的开源更像是「交钥匙工程」,省心省时省力。
Qwen 的每次发布,社区都会第一时间积极响应。HuggingFace、vLLM、Ollama、LMStudio 这些全球主流的工具和社区,几乎都能在第一时间完成兼容支持。这不是巧合,而是千问团队在模型发布前,投入了巨大精力去一个一个对接、调试、优化的结果。
这种对开发者关系的极致重视,让每个拿到 Qwen 模型的人都能立刻用起来,而不是对着一堆文件干瞪眼。
毫不夸张地说,学术界、产业界现在相当程度都在靠 Qwen 的基础模型做科研、做落地。高校的朋友跟我开玩笑说,组里有几个研究生,就指望 Qwen 的小模型基座毕业呢。
所以说,Qwen 的开源工作是最彻底、最扎实的,因而才能吸引到更多开发者,共同构建开放、繁荣、人人可用的技术生态。
国内开源 vs. 国外闭源,悄然发生的格局之变
如果我们再把视线拉远一点,会发现一个更大的竞争格局正在悄然改变。
大模型火了以后,美国一直是 AI 风向标。一年前,OpenAI 领跑模型和产品范式,Meta 是开源扛把子。但是现在,事情正在发生变化。
OpenAI 说要发布 GPT-2 以来的首个开源模型,但是一鸽再鸽;Meta 在经历了 Llama 4 的失利之后,决定转向闭源阵营;xAI 曾说会开源上一代模型,Grok 4 发布会只字不提 Grok 3 开源的事情。Claude、Gemini 向来闭源…
在国外的顶流巨头们走向「闭源保守」时,以 Qwen 为首的中国力量,扛起了开源的大旗。
这种悄然发生的战略反转说明,中国企业不再是先进技术的追随者和使用者,而是正在成为全球 AI 开源生态的「基础设施提供者」和「游戏规则制定者」。
所以我们看到,越来越多的国外开发者选择了 Qwen,成为 Qwen 的自来水:

这,就是这场技术竞赛中,属于中国开源力量的阳谋。
小结:开源定义未来,Qwen 已手握船票
总而言之,这周 Qwen 的三连发,意义远大于模型本身。
- • Qwen 用硬核技术和炸裂分数,打破了闭源模型的性能垄断;
- • Qwen 用最卷的「饱和式开源」,给大家带来了尺寸最全、场景最全的模型;
- • Qwen 用「交钥匙工程」的开发体验,把开源社区的朋友搞的多多的,赢得全球开发者的认可。
对于中小企业和开发者来说,创新的门槛,从未如此之低。曾经需要付出高昂成本的顶尖 AI 能力,现在触手可得,真正向着科技平权、AI 普惠迈进。
放眼全球,当硅谷巨头们在开源与闭源的十字路口犹豫徘徊,甚至出现战略倒退时,以 Qwen 为代表的中国 AI 力量,用最坚决的行动给出了自己的答案:
最彻底的开放,就是最坚固的护城河。
下一个时代,或许真的将由开源定义,而手握最强性能、最全矩阵、最大生态的通义千问,已经稳稳拿到了那张驶向未来、问鼎全球的,最重要的船票。
我们该怎样系统的去转行学习大模型 ?
很多想入行大模型的人苦于现在网上的大模型老课程老教材,学也不是不学也不是,基于此我用做产品的心态来打磨这份大模型教程,深挖痛点并持续修改了近100余次后,终于把整个AI大模型的学习门槛,降到了最低!
在这个版本当中:
第一您不需要具备任何算法和数学的基础
第二不要求准备高配置的电脑
第三不必懂Python等任何编程语言
您只需要听我讲,跟着我做即可,为了让学习的道路变得更简单,这份大模型教程已经给大家整理并打包分享出来, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

一、大模型经典书籍(免费分享)
AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。

二、640套大模型报告(免费分享)
这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

三、大模型系列视频教程(免费分享)

四、2025最新大模型学习路线(免费分享)
我们把学习路线分成L1到L4四个阶段,一步步带你从入门到进阶,从理论到实战。

L1阶段:启航篇丨极速破界AI新时代
L1阶段:我们会去了解大模型的基础知识,以及大模型在各个行业的应用和分析;学习理解大模型的
核心原理、关键技术以及大模型应用场景。

L2阶段:攻坚篇丨RAG开发实战工坊
L2阶段是我们的AI大模型RAG应用开发工程,我们会去学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段:跃迁篇丨Agent智能体架构设计
L3阶段:大模型Agent应用架构进阶实现,我们会去学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造我们自己的Agent智能体。

L4阶段:精进篇丨模型微调与私有化部署
L4阶段:大模型的微调和私有化部署,我们会更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调;并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。

L5阶段:专题集丨特训篇 【录播课】

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方二维码,免费领取

2172

被折叠的 条评论
为什么被折叠?



