QwQ模型介绍与性能实测!1/10硬件成本,性能比肩DeepSeek R1模型

部署运行你感兴趣的模型镜像

本文来自九天老师的视频,由赋范空间运营进行整理编辑,如果你有任何建议欢迎评论告知哦~

仅需1/10的硬件成本,性能就能比肩DeepSeek R1满血模型,阿里千问QWQ-32B推理模型正式开源!

本期将为大家详细介绍QWQ模型的实测性能表现、硬件需求以及与R1模型的优劣势对比。

图片

QWQ系列模型,是阿里千问模型中的推理类大模型,早在去年12月就发布了QWQ-32B-Preview预览模型,也是当时业内最早开源的推理大模型。    

图片

而现在,时隔3个月,QWQ模型再度回归,和此前Preview模型不同,现在的QWQ-32B正式版模型能力暴涨,在数学、编程等推理领域的能力甚至和671B的DeepSeek R1模型相当,

图片

并且QWQ也具备了目前通用的&响应模式,一举甚至成为DeepSeek R1模型的最佳平替!

QWQ性能暴涨的原因,就在于它采用了DeepSeek R1完全相同的训练流程,也就是采用了预训练—全量指令微调—强化学习后训练的三训练流程。

并在强化学习的后训练阶段,原创性的提出了多段强化学习训练法,并在每个RL训练阶段,单独专注于提升模型的某一个方面的能力,如第一个阶段训练模型代码能力、第二个阶段训练模型编程能力等。

这个训练过程如图所示:    

图片

而最终模型效果也非常惊艳,除了各项评分指标和DeepSeek R1模型接近外,模型问答的语气风格也和R1模型相差无几。

这里进行一组简单的对比,例如输入“你好,好久不见,请介绍下你自己”,以下是DeepSeek R1模型的思考和回答内容:    

图片

而以下是则QWQ模型的回答内容:

图片

乍一看,如果不是模型自报家门,根本分别不出哪个模型是哪个。

而类似strawberry中有几个r这种推理问题,QWQ的推理和回答流程也堪称完美:    

图片

以上问答效果的展示,都是基于QWQ本地部署模型推理得到,并不是使用的在线API,结果更加真实可信。

而更加关键的是,QWQ模型,除了不如DeepSeek开源了底层的算法原理外,在实际应用上,各方面都有非常明显的优势。

首先就是更小的模型尺寸,能够在更轻量的硬件环境下部署。QWQ是一个32B的dense(密集型)模型,实测全精度推理的话仅需64G显存即可运行,也就是4卡4090就能流畅运行:

图片

相比之下,DeepSeek R1模型全精度运行则需要至少1200G显存,几乎是QWQ模型的18倍。而如果是运行QWQ的Q4_K_M量化模型,也就是半精度的模型,显存占用甚至可以进一步压缩到不到24G,也就是单卡4090即可运行。

以下是QWQ模型推理、微调硬件要求、模型性能与推荐配置。欢迎扫码领取高清原图:

图片

此外,QWQ模型的第二个核心优势,就在于超长的上下文长度,以及可以兼容Qwen模型生态的全套开发工具。QWQ开源模型就支持128K最大上下文长度,是DeepSeek R1开源版模型的两倍,并且在接入ModelScope-Agent后可以实现Function calling、ReAct等Agent开发核心功能。

同时由于QWQ和Qwen 2.5采用了完全相同的模型架构,因此,该模型已经在开源的第一时间无缝兼容了Ollama、vLLM、SGLang等主流推理框架,以及Unsloth、Llama-factory等主流训练和微调框架,各项功能的实现畅通无阻!

也正因如此,我们团队在第一时间就制作了QWQ模型的全系列教程,包括模型部署、调用、微调、知识库检索、Agent开发等,并上线至赋范大模型技术社区。

今晚8点半,由我主讲的QWQ-32B实战公开直播将正式开始,扫码进入社群即可获取直播链接。

图片

好了,以上就是本期的全部内容。我是九天,如果觉得有用,记得点赞、关注支持哦!加入赋范大模型技术社区,还有更多技术干货等你来学!

您可能感兴趣的与本文相关的镜像

Qwen3-8B

Qwen3-8B

文本生成
Qwen3

Qwen3 是 Qwen 系列中的最新一代大型语言模型,提供了一整套密集型和专家混合(MoE)模型。基于广泛的训练,Qwen3 在推理、指令执行、代理能力和多语言支持方面取得了突破性进展

<think> 我们根据用户的问题“我想查找在ollama中下载qwen模型的方法 请问如何使用ollama下载qwen模型”,结合提供的站内引用内容,来给出回答。 从引用中我们可以看到,下载并运行qwen模型的命令是:`ollama run qwen:14b`(引用[1])。同时,引用[4]也提到了在树莓派上使用ollama安装Qwen0.5b大模型,虽然版本不同,但方法类似。 因此,我们可以总结出在ollama中下载qwen模型的基本步骤: 1. 确保已经安装并启动了ollama(如引用[1]中提到的`brew install ollama --cask`安装,然后`ollama serve`启动;或者引用[4]中树莓派上的安装方法)。 2. 在终端中运行命令:`ollama run <模型名称>`,其中模型名称如`qwen:14b`(14B版本),或者`qwen:0.5b`(0.5B版本)等。 注意:模型名称的格式为`qwen:<版本>`,版本可以是0.5b, 1.5b, 4b, 7b, 14b等。具体可用的版本可以在ollama的模型库中查找(https://ollama.com/library/qwen)。 因此,回答用户的问题,我们可以给出如下步骤: 步骤1:安装Ollama(如果尚未安装)。 步骤2:启动Ollama服务。 步骤3:使用`ollama run qwen:<版本>`命令下载并运行指定的Qwen模型。 另外,引用[5]中提到在Windows上部署Qwen模型,步骤类似,同样使用`ollama run qwen`命令。 我们还可以提示用户,如果下载速度慢,可以考虑使用国内镜像源(如果用户环境需要)。 根据以上分析,我们给出回答。 </think> ### 在Ollama中下载Qwen模型的方法 在Ollama中下载Qwen模型需要执行以下步骤: 1. **安装Ollama** 根据操作系统选择安装方式: - macOS:`brew install ollama --cask`[^1][^5] - Linux:下载对应架构的安装包(如树莓派用`linux-arm64`)[^4] - Windows:从官网下载安装程序 2. **启动Ollama服务** 终端执行启动命令: ```bash ollama serve ``` 3. **下载Qwen模型** 新开终端窗口执行下载命令(以14B版本为例): ```bash ollama run qwen:14b ``` 支持的模型变体包括: - `qwen:0.5b`(0.5B参数)[^4] - `qwen:1.5b/4b/7b`(不同参数量版本) - `qwen:14b`(14B参数)[^1] 4. **验证安装** 下载完成后会自动进入交互模式,输入测试问题如: ``` >>> 请用中文回答"你好" ``` > ⚠️ 注意事项: > 1. 首次运行会自动下载模型文件(约5-20GB,取决于版本) > 2. 确保网络稳定,下载失败时可重试命令 > 3. 查看可用模型列表:`ollama list` ### 常见问题解决 - **速度慢**:可使用国内镜像源(如阿里云)加速下载 - **API配置**:如需在Dify等框架调用,设置URL为`http://localhost:11434`[^1][^2] - **内存不足**:较小设备建议使用`qwen:0.5b`或`qwen:1.5b`版本[^4]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值