大多数通过强化学习学会推理的模型都是大型模型。现在,一个小得多的模型与它们竞争。
新能力:阿里巴巴推出了 QwQ-32B,这是一个大型语言模型,尽管规模相对较小,但其推理能力可与 DeepSeek-R1 相媲美。
• 输入/输出:文本输入(最多 131,072 个标记),文本输出
• 架构:Transformer,总参数 325 亿
• 性能:在某些基准测试中优于 OpenAI o1-mini 和 DeepSeek-R1
• 功能:思路链推理、函数调用、29 种语言的多语言
• 未披露:输出大小、训练数据
• 可用性/价格:通过 Qwen Chat 免费获取。根据 Apache 2.0 许可,可以免费下载权重用于非商业和商业用途。
工作原理:QwQ-32B 是 Qwen2.5-32B 的一个版本,经过微调后可使用强化学习 (RL) 生成思路链。微调分为两个阶段。
• RL 微调的第一阶段侧重于数学和编码任务。模型因正确的最终结果而获得奖励(中间步骤不计入部分学分)。准确性验证器检查其数学解决方案,而代码执行服务器验证预定义测试用例的生成代码。
• 第二阶段鼓励模型遵循说明、使用工具并将其价值观与人类偏好保持一致,同时保持数学和编码性能,并再次奖励最终结果。在此阶段,模型从未指定的奖励模型和一些基于规则的验证器中获得奖励。
性能:在数学、编码和一般问题解决的几个基准测试中,QwQ-32B 的表现优于 OpenAI o1-mini(参数数量未公开),并且性能大致与 DeepSeek-R1(6710 亿个参数,370 亿个参数随时处于活动状态)相当。
• 在 AIME24(高中竞赛数学问题)上,QwQ-32B 的准确率达到 79.5%,远远领先于 o1-mini(63.6%),但略低于 DeepSeek-R1(79.8%)。
• 在 LiveCodeBench(代码生成、修复和测试)上,QwQ-32B 的准确率达到 63.4%,优于 o1-mini(53.8%),但落后于 DeepSeek-R1(65.9%)。
• 在 LiveBench(数学、编码、推理和数据分析问题解决)上,QwQ-32B 达到了 73.1%,领先于 o1-mini(59.1%)和 DeepSeek-R1(71.6%)。
• 在 IFEval(遵循指令)上,QwQ-32B 达到了 83.9%,优于 DeepSeek-R1(83.8%),但落后于 o1-mini(84.8%)。
• 在 BFCL(函数调用)上,QwQ-32B 达到了 66.4%,优于 DeepSeek-R1(60.3%)和 o1-mini(62.8%)。
新闻背后:DeepSeek 的初始模型 DeepSeek-R1-Zero 同样将 RL 应用于预训练模型。这项工作产生了强大的推理能力,但可读性较差(例如,数学解决方案具有正确的步骤但解释混乱)。为了解决这一缺陷,该团队在应用强化学习之前,先在长思维链示例上对 DeepSeek-R1 进行了微调。相比之下,QwQ-32B 跳过了初步微调,分两个阶段应用强化学习,首先优化正确响应,然后优化可读性。
重要性:强化学习可以显著提高 LLM 的推理能力,但不同行为获得奖励的顺序很重要。分阶段使用强化学习使团队能够构建一个 320 亿参数模型——小到可以在消费者 GPU 上本地运行——可与更大的专家混合模型相媲美,让更多开发人员能够使用强大的推理模型。Qwen 团队计划将其强化学习方法扩展到更大的模型,这可以进一步提高下一代推理能力,同时增加更多知识。
我们在想:自“让我们一步一步思考”以来,我们已经走了多远!
(本文系翻译,内容来自DeepLearning.AI,文章内容不代表本号立场)
觉得文章不错,顺手点个“点赞”、“在看”或转发给朋友们吧。
相关阅读:
为什么说DeepSeek在物理世界最大的应用可能是智能电动车?
关于译者
关注公众号看其它原创作品
坚持提供对你有用的信息
觉得好看,点个“点赞”、“在看”或转发给朋友们,欢迎你留言。