大模型评测【开源篇】Qwen大模型｜同样的基座，推理模型Qwq相比常规模型Qwen-instruct，到底哪里更强？

原创

已于 2025-04-11 14:50:14 修改 · 2k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#AI大模型评测 #大模型评测 #大模型实测横评 #qwen大模型 #通义大模型评测 #开源模型评测 #Qwen大模型评测

于 2025-04-11 11:21:03 首次发布

基于同样的基座：qwen2.5-32b-base，qwen官方先后推出了常规模型qwen2.5-32b-instruct（下面简称instruct模型）和推理模型qwq-32b-preview/qwq-32b（下面简称qwq）。众所周知，推理模型擅长推理，我们可以预期qwq在逻辑推理、数学、代码等方面远胜instruct模型，那其他维度呢？

我们接下来通过全方位的评测一探究竟。评测包括8大领域，300多个细分维度。

	qwen2.5-32b-instruct	qwq-32b	变化
总分	68.51	77.18	13%
医疗	71.60	76.45	7%
教育	80.02	85.90	7%
金融	71.83	78.33	9%
法律	50.70	60.80	20%
行政公务

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

easyllm

关注关注

16
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-玩转ollama-Modelfile文件（二）

以微薄之力，予他人些许温暖.

10-29

7409

通过使用Modelfile，Ollama能够简化模型的管理和部署，使得用户能够更方便地进行模型的加载、运行和版本控制。

开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-玩转ollama-Modelfile使用技巧（四）

以微薄之力，予他人些许温暖.

11-01

5649

掌握 `Modelfile` 的使用技巧，提升模型开发的效率和质量，从而加速项目的进展

参与评论您还未登录，请先登录后发表或查看评论

vllm 本地部署qwen2.5/Qwen2.5-32B-Instruct-AWQ模型

yhl18931306541的博客

04-17

1974

vllm 本地部署qwen2.5/Qwen2.5-32B-Instruct-AWQ模型。

常见大模型（llama,qwen,gpt)的结构，这些架构的区别

ttest11的博客

06-12

2016

结构本质一致：三者都是基于Transformer解码器的自回归语言模型，主要区别在实现细节和部分技术创新。Qwen强化中文：Qwen针对中英混合、中文Token优化做了更多本地化处理。LLaMA关注轻量与开放：LLaMA更强调公开透明及高效推理。GPT结构更神秘：OpenAI对GPT-4及后续版本的结构细节披露更少，但大体还是在Transformer解码器技术线上。

阿里开源Qwen3-Omni-30B-A3B三剑客——Instruct、Thinking 和 Captioner

最新发布

weixin_41446370的博客

10-10

1512

Qwen3-Omni是一款端到端多模态基础模型，支持文本、图像、音频和视频处理，并能以文本和语音形式实时响应。其核心优势包括：全模态顶尖表现（在36项音视频基准测试中22项达到SOTA）；支持119种文本语言和19种语音输入；创新的MoE架构实现低延迟；提供高细节音频描述器等开源工具。模型提供三种版本（Instruct/Thinking/Captioner），可通过Hugging Face或ModelScope下载，配套工具包支持音视频处理及FlashAttention加速。该模型特别适合需要实时多模态交互

大型语言模型技术对比：阿里Qwen qwq、DeepSeek R1、OpenAI o3与Grok 3

weixin_43940494的博客

02-27

5394

本文对阿里Qwen QWQ、DeepSeek R1、OpenAI o3和Grok 3四款大型语言模型进行了全面对比，分析了它们的架构、性能、应用场景、开源状态及独特功能，帮助技术研究人员、开发者和企业用户根据需求（如推理能力、多模态处理或实时数据应用）选择最适合的模型。

【大模型】端侧大模型 Qwen/Qwen2.5-1.5B-Instruct

Zack的博客

10-19

4739

【大模型】端侧大模型 Qwen/Qwen2.5-1.5B-Instruct

Qwen模型解析

Morpheon的博客

07-12

2145

阿里云Qwen系列包含多款大型语言模型，主要分为MoE架构和密集型架构两类。Qwen3-235B-A22B是参数2350亿的顶级MoE模型，适合复杂多领域任务；Qwen3-30B-A3B是300亿参数的紧凑MoE模型，适用于资源受限场景。Qwen3-32B作为320亿参数密集型模型，提供均匀的通用能力。Qwen2.5-Max是上一代最强模型，适合通用任务。选择时需考虑任务复杂度、计算资源和性能需求，MoE模型更灵活，密集型模型更均衡。新一代Qwen3在架构和性能上较Qwen2.5有显著提升。

最强国产大模型QwQ-32B，一键本地运行！

m0_63171455的博客

03-25

1021

2025年开年，AI领域迎来重磅转折——国际权威机构MLCommons最新报告显示，全球大模型推理成本同比下降68%，其中中国企业贡献了超过40%的技术突破。在这场效率革命中，阿里巴巴Qwen团队3月6日开源的QwQ-32B模型，其参数仅为 DeepSeek R1 的 1/21，成本仅 1/10，极致性价比，让普通消费级显卡实现了超越专业AI服务器的能力！当OpenAI还在为GPT-5的万亿参数争论时，阿里工程师用"数学老师"思维破解了算力困局。摒弃传统奖励模型，直接通过验证答案正确性构建反馈系统。

开源模型应用落地-Qwen2.5-7B-Instruct与vllm实现离线推理-Tools助力（二）

热门推荐

以微薄之力，予他人些许温暖.

10-16

2万+

在大语言模型推理中使用工具增强模型的能力和准确性，获取实时信息，提高效率并降低计算负担

实战评测Qwen2.5-Coder：开源代码大模型的性价比之选？

AI智能体研究

11-29

2566

我再次把模型换成Claude 3.5 Sonnet，加持最强的ThinkingMode，一顿输出，有理有据的一次性顺利实现了扫雷的所有功能，地雷数目，计时器，三级游戏难度，地雷和旗标，甚至不同地雷数目显示的色彩都不一样，试玩了一下，体验不错，太赞了，看来差距还是很明显的。作为对比，我把模型换成Claude 3.5 Sonnet，加持最强的ThinkingMode，一顿输出，有理有据的一次性顺利实现了人机对弈的功能，如下图所示，不仅棋盘好看多了，AI自动下棋也实现了，不愧是最强编程模型。

对标OpenAI的o1推理模型，通义千问的QwQ的基本原理，以及使用效果与应用场景，给出代码实现过程

微学AI的博客

12-06

4543

深度自省能力：QwQ展现出了令人瞩目的深度自省能力。在面对复杂的推理问题时，它能够主动质疑自身的假设，进行深思熟虑的自我对话，并仔细审视推理过程的每一步。这种能力使得QwQ在解决复杂问题时表现得更加灵活和智能。独特的推理机制：QwQ采用了独特的推理机制，使其能够在解决复杂问题时展现出卓越的表现。特别是在处理经典智力题“猜牌问题”时，QwQ能够像一个擅长思考的人类一样，揣摩“这句话有点 tricky”，并反思“等一下，也许我需要更仔细地思考”。

阿里千问系列：Qwen2.5大模型解读

不积跬步，无以至千里！

03-19

2358

2023年8月，阿里首次开源通义千问第一代模型Qwen-7B，这是一个有70亿参数的通用语言模型。

该来的还是会来，Qwen团队开源推理大模型-QwQ！！！

2401_84204413的博客

11-28

1099

qwen，你依然是你，爱了爱了，我今年的kpi又有保证了，狗头保命。

2.2 主流大模型架构：GPT、DeepSeek、GLM、Claude、QwQ、Qwen2.5-Max等模型的比较与应用场景

keyboard专栏

04-23

3185

OpenAI的GPT系列、DeepSeek的R1和R2、清华大学GLM、Anthropic的Claude、阿里巴巴的QwQ以及Qwen2.5-Max代表了当前大模型技术的顶尖水平。GPT-4o在多模态和通用任务中领先，DeepSeek和QwQ在STEM应用中占优，GLM-4和Qwen2.5-Max在中文和多语言场景中表现出色，Claude则以安全性和长上下文能力著称。最新版本包括GPT-3.5、GPT-4、GPT-4o和GPT-4.5（截至2025年4月），在GPT-3基础上进一步扩展了规模和功能。

阿里最新大模型Qwen2-72B-Instruct 开源体验

一个今天胜过两个明天

06-07

8536

Qwen2 是 Qwen 大型语言模型的新系列。对于 Qwen2，我们发布了许多基础语言模型和指令调优语言模型，范围从 0.5 到 720 亿个参数，包括专家混合模型。此存储库包含指令调整的 72B Qwen2 模型。与之前发布的 Qwen1.5 等最先进的开源语言模型相比，Qwen2 总体上超越了大多数开源模型，并在语言理解、语言生成、多语言能力、编码、数学、推理等一系列基准测试中表现出了与专有模型的竞争力。

QwQ-32B 测评和使用教程来了！

Datawhale

03-07

1835

Datawhale干货作者：张龙斐，Datawhale鲸英助教昨天凌晨，阿里开源了全新的推理模型：QwQ-32B。据官方发布消息，该模型性能比肩满血版 DeepSeek-R1（671B）！可以看到在官方放出的评测图中， QwQ-32B 与满血版 DeepSeek R1（671B）在五项基准测试的得分不相上下，更是远超同尺寸 R1 蒸馏模型。看到了这些消息后，我就开始上手深度测试。QwQ-32B...

本地化部署QwQ 32B也不香了？Qwen 3 掀波澜！——大语言模型硅基进化狂飙，一个多月后再次升级

AlexOasis的博客

05-08

1361

Qwen3的30b-a3b模型在哪些任务上进行了优化？

08-07

### 任务优化与性能表现 Qwen3-30B-A3B 模型作为一款小型 MoE（Mixture of Experts）模型，其设计目标是在保证高性能的同时大幅降低计算资源的消耗。具体而言，该模型的激活参数数量仅为 QwQ-32B 的 10%，但其推理能力和生成质量却更胜一筹。这一优化使得 Qwen3-30B-A3B 在多个关键任务中展现出卓越的性能表现。在代码生成与理解方面，Qwen3-30B-A3B 模型能够高效地处理复杂的编程任务，包括但不限于代码补全、代码翻译、代码解释和错误检测。其在代码相关任务中的表现接近甚至超越了一些更大规模的模型，如 Qwen2.5-72B-Instruct，这表明它在编程语言的理解和生成方面具有极高的准确性和流畅性。在数学推理任务中，Qwen3-30B-A3B 模型同样表现出色。它可以处理从基础算术到高级数学推理的各种问题，包括代数、几何、微积分等领域的题目。该模型在数学基准测试中与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比，展现了极具竞争力的结果。此外，Qwen3-30B-A3B 模型还支持灵活切换思考模式，这意味着它可以在不同的推理模式之间切换，以适应不同类型的输入和任务需求。例如，在需要快速响应的任务中，模型可以采用更高效的推理模式，而在需要高质量输出的任务中，则可以切换到更注重生成质量的模式。这种灵活性使得 Qwen3-30B-A3B 能够更好地适应多样化的应用场景。在部署与推理优化方面，Qwen3-30B-A3B 模型采用了 vLLM 框架进行推理优化，结合 Open-WebUI 实现了高效的本地私有化部署。这一部署方案不仅提高了模型的推理速度，还降低了资源消耗，使得该模型能够在中等规模的硬件配置上高效运行。 ```python from transformers import AutoTokenizer, AutoModelForCausalLM # 加载 Qwen3-30B-A3B 模型 tokenizer = AutoTokenizer.from_pretrained("Qwen3-30B-A3B") model = AutoModelForCausalLM.from_pretrained("Qwen3-30B-A3B") ```