AI 观察：紧凑的推理模型——阿里巴巴的QwQ-32B

最新推荐文章于 2025-03-24 20:53:30 发布

转载最新推荐文章于 2025-03-24 20:53:30 发布 · 120 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzI1MjQ3NzE2Mw==&mid=2247486180&idx=2&sn=969507264968b5c84e164d82a2d6d130&chksm=e81b0e0573f7601501396252f747e1ffa757c212fd5d267772008559300bea7c7f7bbf01f21c&scene=126&sessionid=0

文章标签：

大多数通过强化学习学会推理的模型都是大型模型。现在，一个小得多的模型与它们竞争。

新能力：阿里巴巴推出了 QwQ-32B，这是一个大型语言模型，尽管规模相对较小，但其推理能力可与 DeepSeek-R1 相媲美。

• 输入/输出：文本输入（最多 131,072 个标记），文本输出

• 架构：Transformer，总参数 325 亿

• 性能：在某些基准测试中优于 OpenAI o1-mini 和 DeepSeek-R1

• 功能：思路链推理、函数调用、29 种语言的多语言

• 未披露：输出大小、训练数据

• 可用性/价格：通过 Qwen Chat 免费获取。根据 Apache 2.0 许可，可以免费下载权重用于非商业和商业用途。

工作原理：QwQ-32B 是 Qwen2.5-32B 的一个版本，经过微调后可使用强化学习 (RL) 生成思路链。微调分为两个阶段。

• RL 微调的第一阶段侧重于数学和编码任务。模型因正确的最终结果而获得奖励（中间步骤不计入部分学分）。准确性验证器检查其数学解决方案，而代码执行服务器验证预定义测试用例的生成代码。

• 第二阶段鼓励模型遵循说明、使用工具并将其价值观与人类偏好保持一致，同时保持数学和编码性能，并再次奖励最终结果。在此阶段，模型从未指定的奖励模型和一些基于规则的验证器中获得奖励。

性能：在数学、编码和一般问题解决的几个基准测试中，QwQ-32B 的表现优于 OpenAI o1-mini（参数数量未公开），并且性能大致与 DeepSeek-R1（6710 亿个参数，370 亿个参数随时处于活动状态）相当。

• 在 AIME24（高中竞赛数学问题）上，QwQ-32B 的准确率达到 79.5%，远远领先于 o1-mini（63.6%），但略低于 DeepSeek-R1（79.8%）。

• 在 LiveCodeBench（代码生成、修复和测试）上，QwQ-32B 的准确率达到 63.4%，优于 o1-mini（53.8%），但落后于 DeepSeek-R1（65.9%）。

• 在 LiveBench（数学、编码、推理和数据分析问题解决）上，QwQ-32B 达到了 73.1%，领先于 o1-mini（59.1%）和 DeepSeek-R1（71.6%）。

• 在 IFEval（遵循指令）上，QwQ-32B 达到了 83.9%，优于 DeepSeek-R1（83.8%），但落后于 o1-mini（84.8%）。

• 在 BFCL（函数调用）上，QwQ-32B 达到了 66.4%，优于 DeepSeek-R1（60.3%）和 o1-mini（62.8%）。

新闻背后：DeepSeek 的初始模型 DeepSeek-R1-Zero 同样将 RL 应用于预训练模型。这项工作产生了强大的推理能力，但可读性较差（例如，数学解决方案具有正确的步骤但解释混乱）。为了解决这一缺陷，该团队在应用强化学习之前，先在长思维链示例上对 DeepSeek-R1 进行了微调。相比之下，QwQ-32B 跳过了初步微调，分两个阶段应用强化学习，首先优化正确响应，然后优化可读性。

重要性：强化学习可以显著提高 LLM 的推理能力，但不同行为获得奖励的顺序很重要。分阶段使用强化学习使团队能够构建一个 320 亿参数模型——小到可以在消费者 GPU 上本地运行——可与更大的专家混合模型相媲美，让更多开发人员能够使用强大的推理模型。Qwen 团队计划将其强化学习方法扩展到更大的模型，这可以进一步提高下一代推理能力，同时增加更多知识。

我们在想：自“让我们一步一步思考”以来，我们已经走了多远！

（本文系翻译，内容来自DeepLearning.AI，文章内容不代表本号立场）

觉得文章不错，顺手点个“点赞”、“在看”或转发给朋友们吧。

相关阅读：

为什么说DeepSeek在物理世界最大的应用可能是智能电动车？

重磅体验：AI编程不能取代程序员，但程序员会用的话确实很爽

最新洞见：GenAI在企业应用中的既要又要

关于译者

关注公众号看其它原创作品

坚持提供对你有用的信息

觉得好看，点个“点赞”、“在看”或转发给朋友们，欢迎你留言。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。