Qwen新模型直逼Claude4!可拓展百万上下文窗口,33GB本地即可运行

部署运行你感兴趣的模型镜像

开源编程模型的天花板,要被Qwen3-Coder掀翻了。

8月1日凌晨,Qwen3-Coder-Flash也重磅开源!

“甜品级”的size,但完全“大餐”级的性能。

  • 多编程任务超越顶级开源模型,仅略逊于闭源的Claude Sonnet-4、GPT-4.1等。

  • 原生上下文窗口支持256k token,可延长拓展至1 million token。

  • 33GB内存(即中端笔记本)可运行。

啥概念?

相当于GPT-4.1级别的能力,还能让你本地使用!

有人实测,在苹果M4 Max上通过mlx-lm运行Qwen3-Coder-Flash,每秒可生成107个token,相当快。

笔记本上就能跑出好效果

Qwen3-Coder-Flash是Qwen3-Coder的精简版,都是非推理模型。

  • 采用MoE架构,30亿参数总量,激活参数3.3亿。

  • 原生上下文窗口支持256k token,通过YaRN等可延长至一百万token上下文,适合大型代码库和复杂多文件工程。

  • 针对Qwen Code、Cline、Roo Code、Kilo Code等平台进行优化。

  • 无缝支持函数调用和agent工作流。

主要强调了Agent方面的能力:

  • Agentic Coding(智能体编程)

  • Agentic Browser Use(智能体浏览器使用)

  • Agentic Tool Use(智能体工具调用)

有博主在M2 Macbook Pro上用量化版Qwen3-Coder-Flash( 24.82GB 6bit MLX版)做的游戏,运行效果很不错。

而且提示词也很短,就一句话:

Write an HTML and JavaScript page implementing space invaders.

这意味着训练数据中可能存在大量相关或者类似任务,才能让模型一次就能输出非常好的效果。

博主在首次尝试后,感觉飞船发射的子弹太快了,所以想要让它降速一点。

由于他使用的Open WebUI没有类似于Claude Artifacts的工具调用的功能,这意味着模型需要重新输出一个完整结果,实测表明它确实可以做到。

此外他还实测了生成鹈鹕骑自行车,每秒60个tokens,不过效果有点问题。

您可能感兴趣的与本文相关的镜像

Qwen3-14B

Qwen3-14B

文本生成
Qwen3

Qwen3 是 Qwen 系列中的最新一代大型语言模型,提供了一整套密集型和专家混合(MoE)模型。基于广泛的训练,Qwen3 在推理、指令执行、代理能力和多语言支持方面取得了突破性进展

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值