阿里QWQ-32B环境搭建&推理测试

最新推荐文章于 2025-04-17 15:00:00 发布

要养家的程序猿

最新推荐文章于 2025-04-17 15:00:00 发布

阅读量358

点赞数 5

分类专栏： AI算法文章标签：人工智能 ai

本文链接：https://blog.youkuaiyun.com/zzq1989_/article/details/147036697

版权

AI算法专栏收录该内容

46 篇文章

订阅专栏

引子

当政企都在热衷于本地部署满血DeepSeek-R1，阿里重磅开源了 QwQ。当大部分人玩不起 671B 的满血，32B 的 QwQ 已让全球开发者陷入狂欢。消费级显卡就能跑，堪称推理模型天花板！QwQ 的评价之所以这么高，主要基于两点：效果比肩满血DeepSeek-R1；仅用 32B 参数， R1 满血版的 1/20。DeepSeek的狂欢也该静一静了，我一直觉得阿里开源的大模型是很业界良心的。OK，我们开始吧！

一、模型介绍

QwQ 是阿里通义千问最新开源的推理模型。它仅用 32B 参数，便与目前公认的开源最强满血DeepSeek-R1 相媲美。甚至，在多项基准测试中全面超越 o1-mini。DeepSeek 证明了强化学习是提升模型性能的关键钥匙。QwQ 则再一次证明了这一结论，有下图为证：不过，与传统方法不同的是，QwQ 采用了多阶段强化训练策略。

第一阶段，针对数学、编程任务，进行强化学习。

通过校验答案（数学任务）和代码执行（编程任务）提供反馈，确保模型逐步「进化」。

第二阶段，针对通用能力进行强化学习。

实验表明，少量步骤的通用任务训练，即可提升 QwQ 的通用能力，且数学、编程性能没有显著下降。值得注意的是，QwQ 不只是一个推理模型，还集成了先进的 Agent相关能力，如 Function call。