AI 观察:紧凑的推理模型——阿里巴巴的QwQ-32B

大多数通过强化学习学会推理的模型都是大型模型。现在,一个小得多的模型与它们竞争。

新能力:阿里巴巴推出了 QwQ-32B,这是一个大型语言模型,尽管规模相对较小,但其推理能力可与 DeepSeek-R1 相媲美。

• 输入/输出:文本输入(最多 131,072 个标记),文本输出

• 架构:Transformer,总参数 325 亿

• 性能:在某些基准测试中优于 OpenAI o1-mini 和 DeepSeek-R1

• 功能:思路链推理、函数调用、29 种语言的多语言

• 未披露:输出大小、训练数据

• 可用性/价格:通过 Qwen Chat 免费获取。根据 Apache 2.0 许可,可以免费下载权重用于非商业和商业用途。

工作原理:QwQ-32B 是 Qwen2.5-32B 的一个版本,经过微调后可使用强化学习 (RL) 生成思路链。微调分为两个阶段。

• RL 微调的第一阶段侧重于数学和编码任务。模型因正确的最终结果而获得奖励(中间步骤不计入部分学分)。准确性验证器检查其数学解决方案,而代码执行服务器验证预定义测试用例的生成代码。

• 第二阶段鼓励模型遵循说明、使用工具并将其价值观与人类偏好保持一致,同时保持数学和编码性能,并再次奖励最终结果。在此阶段,模型从未指定的奖励模型和一些基于规则的验证器中获得奖励。

性能:在数学、编码和一般问题解决的几个基准测试中,QwQ-32B 的表现优于 OpenAI o1-mini(参数数量未公开),并且性能大致与 DeepSeek-R1(6710 亿个参数,370 亿个参数随时处于活动状态)相当。    

• 在 AIME24(高中竞赛数学问题)上,QwQ-32B 的准确率达到 79.5%,远远领先于 o1-mini(63.6%),但略低于 DeepSeek-R1(79.8%)。

• 在 LiveCodeBench(代码生成、修复和测试)上,QwQ-32B 的准确率达到 63.4%,优于 o1-mini(53.8%),但落后于 DeepSeek-R1(65.9%)。

• 在 LiveBench(数学、编码、推理和数据分析问题解决)上,QwQ-32B 达到了 73.1%,领先于 o1-mini(59.1%)和 DeepSeek-R1(71.6%)。

• 在 IFEval(遵循指令)上,QwQ-32B 达到了 83.9%,优于 DeepSeek-R1(83.8%),但落后于 o1-mini(84.8%)。

• 在 BFCL(函数调用)上,QwQ-32B 达到了 66.4%,优于 DeepSeek-R1(60.3%)和 o1-mini(62.8%)。

新闻背后:DeepSeek 的初始模型 DeepSeek-R1-Zero 同样将 RL 应用于预训练模型。这项工作产生了强大的推理能力,但可读性较差(例如,数学解决方案具有正确的步骤但解释混乱)。为了解决这一缺陷,该团队在应用强化学习之前,先在长思维链示例上对 DeepSeek-R1 进行了微调。相比之下,QwQ-32B 跳过了初步微调,分两个阶段应用强化学习,首先优化正确响应,然后优化可读性。

重要性:强化学习可以显著提高 LLM 的推理能力,但不同行为获得奖励的顺序很重要。分阶段使用强化学习使团队能够构建一个 320 亿参数模型——小到可以在消费者 GPU 上本地运行——可与更大的专家混合模型相媲美,让更多开发人员能够使用强大的推理模型。Qwen 团队计划将其强化学习方法扩展到更大的模型,这可以进一步提高下一代推理能力,同时增加更多知识。

我们在想:自“让我们一步一步思考”以来,我们已经走了多远!    

(本文系翻译,内容来自DeepLearning.AI,文章内容不代表本号立场)

觉得文章不错,顺手点个“点赞”、“在看”或转发给朋友们吧。

图片

相关阅读:

为什么说DeepSeek在物理世界最大的应用可能是智能电动车?

重磅体验:AI编程不能取代程序员,但程序员会用的话确实很爽

最新洞见:GenAI在企业应用中的既要又要

关于译者


图片

关注公众号看其它原创作品

坚持提供对你有用的信息

觉得好看,点个“点赞”、“在看”或转发给朋友们,欢迎你留言

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值