围观一下,QwQ真的能和DeepSeek-R1一较高下吗?

我们前面简单跑了一下128 GB显存能运行的DeepSeek-R1的不同参数的模型(目前来看,ollama量化过的DeepSeek模型应该就是最具性价比的选择),根据DeepSeek-R1自己给出的相对精度,结合我们自己实测的显存占用情况,得到下表:

24f01d162f362de5414f6736dfbbd372.png

可以看到,除了7B模型和8B模型有所交织之外,其余模型也是秉承一寸长一寸强的原则,参数大一级压死人。当然,QwQ模型宣称通过32B参数能达到接近671B的效果,我们今天简单看一下效果。

首先是模型文件大小,ollama提供的模型文件是Q4_K_M,也就是INT4量化过的模型,模型参数实际为32.8B,蒸馏架构为Qwen2。作为对比,我们回顾一下DeepSeek-R1的32B模型的参数,蒸馏架构同为Qwen2,模型参数也是32.8B,量化方式也是INT4,几乎是完全一致。    

文件大小上,DeepSeek-R1的32B模型文件大小为19,851,335,552字节,而QwQ则为19,851,336,256,差距微乎其微。

本次测试我租了GPU云主机,搭配了NVIDIA A10的GPU,显存容量为24 GB(24564 MB),因为操作系统为Windows Server 2019,最高支持CUDA 12.3版本。

16375143ecabbcfd1da603be04152524.png

加载模型看一下显存使用情况,相比于DeepSeek-R1的32B模型的21450 MB,QwQ的显存占用稍微高一点点,为21695 MB。

b82e51a2230d9976cd6c807644721598.png    

我们首先拿之前的数学题测试一下(一道四年级数学题,DeepSeek-R1的32b以下模型全军覆没,视频为证!):

“甲、乙、丙三人的钱数各不相同,甲最多,他拿出一些钱给乙和丙,使乙和丙的钱数都比原来增加了2倍,结果乙的钱最多;接着乙拿出一些钱给甲和丙,使甲和丙的钱数各增加了2倍,结果丙的钱最多;最后丙又拿出一些钱给甲和乙,使他们的钱数和增加了2倍,结果三人的钱数一样多。如果他们三人共有81元,那么三人原来分别有多少钱?”

其实这个问题倒不是很难,是一道小学四年级的计算题;但是这道题里面还有文字游戏,需要模型能够正常理解“增加了2倍”的含义,然后再做数学运算。

QwQ的对话过程如下所示:

经过475秒的计算,他给出了一个错误的答案。不过从计算过程来看,应该是A10的计算架构比P40更先进,所以输出速度更快;但是他对增加两倍的理解还存在些许偏差。

17b2472c66003fa502a7c0ec4c466e31.png

作为对比,可以再回顾一下DeepSeek-R1的32B模型的测试过程:

经过420秒的计算,他得到了正确的计算结果,但是回答不太扣题,甲乙丙三人怎么最后只剩我了?不过换成A10之后应该会计算的更快了。    

10ff4cede4ee58c9bbdff38f76d4a78b.png

接下来,我让DeepSeek出了几道测试题,第一道还是数学题。从数组【24,14,26,33,46,()】中找规律,实际上,设定的数学规律是“第三个数等于第一个数的一半加上第二个数”,按照这个规律,最后一个数应该是62.5。我们看一下QwQ的推算过程:

经过808秒的计算,还没出结果就结束了,他甚至还提醒我接下来要按照这个思路组织答案。    

33ffcb17020746c3c770792ced28cac7.png

不过从计算过程中我们可以看到,他的计算已经偏了,他自己把题目中的数组替换掉了。

6e2c27f98cccb725c356da94039172f8.png

计算过程中甚至大厂味儿十足,中文中夹杂着英文。    

5ca2e2adde7685f53b8e9b9dd47b02de.png

不过这里不能歧视QwQ,因为DeepSeek-R1也没解出来。

剩下的,还有DeepSeek出的几道逻辑题,测试过程如下:

最简单的当属“数Strawberry中有几个r”这道题,耗费了40秒的计算时间,出现了过度思考的问题。

d28e0c881c91460e7ef3deffbb7d1221.png    

然后是一道有点抽象的题目“用一根绳子吊住一根胡萝卜,达到平衡,胡萝卜头尾在同一水平。这时候沿着绳子切开胡萝卜为两份,哪边更重?”这道题的正确答案是“因尾部较细力臂更长所以净重量要比头部更小,最终头部一侧的净重量更大。”经过178秒的计算,QwQ似乎已经得到了正确答案,但是他又在思考过程中异常退出了,没有整理出最终答案。

0c0fd49b92bc283abbf45bc2b91f4633.png

接下来的题目是“房子里有五个人,A、B、C、D和E,A正在和B看电视,D在睡觉,E在打乒乓球,请问C在做什么?”经过68秒的计算,他得到了正确答案,并且备注了可能的特殊情况。    

a9914468e3850f34a6673a669ebb756d.png

然后是最近比较火的一道经典题目“比较9.11和9.8这两个数的大小。”经过33秒的推理,他给出了正确答案,看来这些低端缺陷都已经被修复了。    

4bb6ac57d9f901c1c5b634151fbf607d.png

最后是一道老生常谈的题目“用5L容量和3L容量的瓶子怎么装出4L的水?”经过98秒的推理,QwQ给出了两种操作方法,还是很轻松的。    

43040256eba2f7a0b04995e34773a5ca.png

单从本次测试来看,QwQ的能力貌似是要比DeepSeek-R1差一点点,毕竟使用相同参数、相同量化方式时,他的数学题错了一道。从这个角度分析,QwQ的能力貌似不及满血DeepSeek-R1的78%,但是这个结果毕竟不是用的标准测试数据集,不能以偏概全的说QwQ完全不如DeepSeek-R1,大家说对吧?    

***推荐阅读***

目前来看,ollama量化过的DeepSeek模型应该就是最具性价比的选择

哪怕用笔记本的4070显卡运行DeepSeek,都要比128核的CPU快得多!

帮你省20块!仅需2条命令即可通过Ollama本地部署DeepSeek-R1模型

一个小游戏里的数学问题,难倒了所有的人工智能:ChatGPT、DeepSeek、豆包、通义千问、文心一言

离线文件分享了,快来抄作业,本地部署一个DeepSeek个人小助理

Ubuntu使用Tesla P4配置Anaconda+CUDA+PyTorch

Ubuntu磁盘空间不足或配置错误时,如何操作扩容?

当你买了一台Linux云主机,应该如何测试主机性能?

没有图形界面,如何快速部署一个Ubuntu 24.10的Server虚拟机

清华大模型ChatGLM3在本地Tesla P40上也运行起来了

openVPN不同加密算法性能对比

Debian系统配置网络的花样还是太多了

使用openVPN对比AES和SM4加密算法性能,国密好像也没那么差

转发性能只有1 G吗?Debian使用strongSwan配置的IPsec VPN好像也不太强

安装Debian时千万不要使用网络镜像站点

配置使用新加坡网络镜像站点安装Debian 12.9更快!

OpenWrt如何配置WireGuard互联?

6de54756a223a30749dd57695fce64c6.jpeg

### DeepSeek-R1-Distill-Qwen-32B 模型介绍 DeepSeek-R1-Distill-Qwen-32B 是基于 Qwen2.5-32B 进行蒸馏得到的小规模密集模型之一。该模型通过从大型预训练模型 DeepSeek-R1 中提取知识,显著提升了推理能力性能表现[^1]。 在开发过程中,研究人员选择了 Qwen2.5-32B 作为基础模型,并直接从 DeepSeek-R1 进行了知识蒸馏。实验结果显示,在多个基准测试中,这种直接蒸馏的方法比使用强化学习优化后的效果更好,表明大模型所发现的推理模式对于提升小模型的能力非常重要[^2]。 ### 性能比较:DeepSeek-R1-Distill-Qwen-32B vs. 14B 版本 研究表明,经过精心设计的知识蒸馏过程后,即使是参数量较少的模型也能达到甚至超过更大规模模型的表现: - **14B 模型**:蒸馏后的 14B 模型大幅超越了当时最先进水平的开源 QwQ-32B-Preview (Qwen, 2024a),显示出强大的竞争力。 - **32B 70B 模型**:这些更大的蒸馏版模型不仅保持住了原有优势,还在密集模型中的推理基准上创下了新纪录。特别是 DeepSeek-R1-Distill-Qwen-32B,在某些特定任务上的成绩尤为突出,例如 AIME 2024 数学竞赛方面超过了 GPT-4o Claude 3.5 的表现[^3]。 综上所述,虽然 32B 版本拥有更多的参数数量,但在实际应用场景下两者之间的差距可能取决于具体任务需求;而就整体而言,32B 版本确实展现出了更强的整体实力更广泛的应用潜力。 ```python # 示例代码展示如何加载并评估两个不同大小的模型 import torch from transformers import AutoModelForCausalLM, AutoTokenizer def evaluate_model(model_name): tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name) input_text = "Evaluate this math problem:" inputs = tokenizer(input_text, return_tensors="pt") with torch.no_grad(): outputs = model.generate(**inputs, max_length=50) result = tokenizer.decode(outputs[0], skip_special_tokens=True) print(f"Result from {model_name}: ", result) evaluate_model('DeepSeek-R1-Distill-Qwen-14B') evaluate_model('DeepSeek-R1-Distill-Qwen-32B') ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Danileaf_Guo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值