围观一下，QwQ真的能和DeepSeek-R1一较高下吗？

最新推荐文章于 2025-03-16 14:15:07 发布

Danileaf_Guo

最新推荐文章于 2025-03-16 14:15:07 发布

阅读量679

点赞数 11

本文链接：https://blog.youkuaiyun.com/gtj0617/article/details/146168672

版权

我们前面简单跑了一下128 GB显存能运行的DeepSeek-R1的不同参数的模型（目前来看，ollama量化过的DeepSeek模型应该就是最具性价比的选择），根据DeepSeek-R1自己给出的相对精度，结合我们自己实测的显存占用情况，得到下表：

可以看到，除了7B模型和8B模型有所交织之外，其余模型也是秉承一寸长一寸强的原则，参数大一级压死人。当然，QwQ模型宣称通过32B参数能达到接近671B的效果，我们今天简单看一下效果。

首先是模型文件大小，ollama提供的模型文件是Q4_K_M，也就是INT4量化过的模型，模型参数实际为32.8B，蒸馏架构为Qwen2。作为对比，我们回顾一下DeepSeek-R1的32B模型的参数，蒸馏架构同为Qwen2，模型参数也是32.8B，量化方式也是INT4，几乎是完全一致。

文件大小上，DeepSeek-R1的32B模型文件大小为19,851,335,552字节，而QwQ则为19,851,336,256，差距微乎其微。

本次测试我租了GPU云主机，搭配了NVIDIA A10的GPU，显存容量为24 GB（24564 MB），因为操作系统为Windows Server 2019，最高支持CUDA 12.3版本。

加载模型看一下显存使用情况，相比于DeepSeek-R1的32B模型的21450 MB，QwQ的显存占用稍微高一点点，为21695 MB。

我们首先拿之前的数学题测试一下（一道四年级数学题，DeepSeek-R1的32b以下模型全军覆没，视频为证！）：

“甲、乙、丙三人的钱数各不相同，甲最多，他拿出一些钱给乙和丙，使乙和丙的钱数都比原来增加了2倍，结果乙的钱最多；接着乙拿出一些钱给甲和丙，使甲和丙的钱数各增加了2倍，结果丙的钱最多；最后丙又拿出一些钱给甲和乙，使他们的钱数和增加了2倍，结果三人的钱数一样多。如果他们三人共有81元，那么三人原来分别有多少钱？”

其实这个问题倒不是很难，是一道小学四年级的计算题；但是这道题里面还有文字游戏，需要模型能够正常理解“增加了2倍”的含义，然后再做数学运算。

QwQ的对话过程如下所示：

经过475秒的计算，他给出了一个错误的答案。不过从计算过程来看，应该是A10的计算架构比P40更先进，所以输出速度更快；但是他对增加两倍的理解还存在些许偏差。

作为对比，可以再回顾一下DeepSeek-R1的32B模型的测试过程：

经过420秒的计算，他得到了正确的计算结果，但是回答不太扣题，甲乙丙三人怎么最后只剩我了？不过换成A10之后应该会计算的更快了。

接下来，我让DeepSeek出了几道测试题，第一道还是数学题。从数组【24，14，26，33，46，（）】中找规律，实际上，设定的数学规律是“第三个数等于第一个数的一半加上第二个数”，按照这个规律，最后一个数应该是62.5。我们看一下QwQ的推算过程：

经过808秒的计算，还没出结果就结束了，他甚至还提醒我接下来要按照这个思路组织答案。

不过从计算过程中我们可以看到，他的计算已经偏了，他自己把题目中的数组替换掉了。

计算过程中甚至大厂味儿十足，中文中夹杂着英文。

不过这里不能歧视QwQ，因为DeepSeek-R1也没解出来。

剩下的，还有DeepSeek出的几道逻辑题，测试过程如下：

最简单的当属“数Strawberry中有几个r”这道题，耗费了40秒的计算时间，出现了过度思考的问题。

然后是一道有点抽象的题目“用一根绳子吊住一根胡萝卜，达到平衡，胡萝卜头尾在同一水平。这时候沿着绳子切开胡萝卜为两份，哪边更重?”这道题的正确答案是“因尾部较细力臂更长所以净重量要比头部更小，最终头部一侧的净重量更大。”经过178秒的计算，QwQ似乎已经得到了正确答案，但是他又在思考过程中异常退出了，没有整理出最终答案。

接下来的题目是“房子里有五个人，A、B、C、D和E，A正在和B看电视，D在睡觉，E在打乒乓球，请问C在做什么？”经过68秒的计算，他得到了正确答案，并且备注了可能的特殊情况。

然后是最近比较火的一道经典题目“比较9.11和9.8这两个数的大小。”经过33秒的推理，他给出了正确答案，看来这些低端缺陷都已经被修复了。

最后是一道老生常谈的题目“用5L容量和3L容量的瓶子怎么装出4L的水?”经过98秒的推理，QwQ给出了两种操作方法，还是很轻松的。

单从本次测试来看，QwQ的能力貌似是要比DeepSeek-R1差一点点，毕竟使用相同参数、相同量化方式时，他的数学题错了一道。从这个角度分析，QwQ的能力貌似不及满血DeepSeek-R1的78%，但是这个结果毕竟不是用的标准测试数据集，不能以偏概全的说QwQ完全不如DeepSeek-R1，大家说对吧？

***推荐阅读***

目前来看，ollama量化过的DeepSeek模型应该就是最具性价比的选择

哪怕用笔记本的4070显卡运行DeepSeek，都要比128核的CPU快得多！

帮你省20块！仅需2条命令即可通过Ollama本地部署DeepSeek-R1模型

一个小游戏里的数学问题，难倒了所有的人工智能：ChatGPT、DeepSeek、豆包、通义千问、文心一言

离线文件分享了，快来抄作业，本地部署一个DeepSeek个人小助理

Ubuntu使用Tesla P4配置Anaconda+CUDA+PyTorch

Ubuntu磁盘空间不足或配置错误时，如何操作扩容？

当你买了一台Linux云主机，应该如何测试主机性能？

没有图形界面，如何快速部署一个Ubuntu 24.10的Server虚拟机

清华大模型ChatGLM3在本地Tesla P40上也运行起来了

openVPN不同加密算法性能对比