AI 观察:紧凑的推理模型——阿里巴巴的QwQ-32B

大多数通过强化学习学会推理的模型都是大型模型。现在,一个小得多的模型与它们竞争。

新能力:阿里巴巴推出了 QwQ-32B,这是一个大型语言模型,尽管规模相对较小,但其推理能力可与 DeepSeek-R1 相媲美。

• 输入/输出:文本输入(最多 131,072 个标记),文本输出

• 架构:Transformer,总参数 325 亿

• 性能:在某些基准测试中优于 OpenAI o1-mini 和 DeepSeek-R1

• 功能:思路链推理、函数调用、29 种语言的多语言

• 未披露:输出大小、训练数据

• 可用性/价格:通过 Qwen Chat 免费获取。根据 Apache 2.0 许可,可以免费下载权重用于非商业和商业用途。

工作原理:QwQ-32B 是 Qwen2.5-32B 的一个版本,经过微调后可使用强化学习 (RL) 生成思路链。微调分为两个阶段。

• RL 微调的第一阶段侧重于数学和编码任务。模型因正确的最终结果而获得奖励(中间步骤不计入部分学分)。准确性验证器检查其数学解决方案,而代码执行服务器验证预定义测试用例的生成代码。

• 第二阶段鼓励模型遵循说明、使用工具并将其价值观与人类偏好保持一致,同时保持数学和编码性能,并再次奖励最终结果。在此阶段,模型从未指定的奖励模型和一些基于规则的验证器中获得奖励。

性能:在数学、编码和一般问题解决的几个基准测试中,QwQ-32B 的表现优于 OpenAI o1-mini(参数数量未公开),并且性能大致与 DeepSeek-R1(6710 亿个参数,370 亿个参数随时处于活动状态)相当。    

• 在 AIME24(高中竞赛数学问题)上,QwQ-32B 的准确率达到 79.5%,远远领先于 o1-mini(63.6%),但略低于 DeepSeek-R1(79.8%)。

• 在 LiveCodeBench(代码生成、修复和测试)上,QwQ-32B 的准确率达到 63.4%,优于 o1-mini(53.8%),但落后于 DeepSeek-R1(65.9%)。

• 在 LiveBench(数学、编码、推理和数据分析问题解决)上,QwQ-32B 达到了 73.1%,领先于 o1-mini(59.1%)和 DeepSeek-R1(71.6%)。

• 在 IFEval(遵循指令)上,QwQ-32B 达到了 83.9%,优于 DeepSeek-R1(83.8%),但落后于 o1-mini(84.8%)。

• 在 BFCL(函数调用)上,QwQ-32B 达到了 66.4%,优于 DeepSeek-R1(60.3%)和 o1-mini(62.8%)。

新闻背后:DeepSeek 的初始模型 DeepSeek-R1-Zero 同样将 RL 应用于预训练模型。这项工作产生了强大的推理能力,但可读性较差(例如,数学解决方案具有正确的步骤但解释混乱)。为了解决这一缺陷,该团队在应用强化学习之前,先在长思维链示例上对 DeepSeek-R1 进行了微调。相比之下,QwQ-32B 跳过了初步微调,分两个阶段应用强化学习,首先优化正确响应,然后优化可读性。

重要性:强化学习可以显著提高 LLM 的推理能力,但不同行为获得奖励的顺序很重要。分阶段使用强化学习使团队能够构建一个 320 亿参数模型——小到可以在消费者 GPU 上本地运行——可与更大的专家混合模型相媲美,让更多开发人员能够使用强大的推理模型。Qwen 团队计划将其强化学习方法扩展到更大的模型,这可以进一步提高下一代推理能力,同时增加更多知识。

我们在想:自“让我们一步一步思考”以来,我们已经走了多远!    

(本文系翻译,内容来自DeepLearning.AI,文章内容不代表本号立场)

觉得文章不错,顺手点个“点赞”、“在看”或转发给朋友们吧。

图片

相关阅读:

为什么说DeepSeek在物理世界最大的应用可能是智能电动车?

重磅体验:AI编程不能取代程序员,但程序员会用的话确实很爽

最新洞见:GenAI在企业应用中的既要又要

关于译者


图片

关注公众号看其它原创作品

坚持提供对你有用的信息

觉得好看,点个“点赞”、“在看”或转发给朋友们,欢迎你留言

<think>嗯,用户想了解如何部署qwq-32b模型到VLLM平台上。首先,我需要回忆一下VLLM的基本知识。VLLM是一个高效推理和部署框架,支持大规模语言模型,特别是优化了自回归模型的推理速度。那部署模型的一般步骤是什么呢?通常需要安装环境、下载模型、配置参数、启动服务。 接下来,用户提到的qwq-32b模型,我需要确认是否有相关的引用信息。查看用户提供的引用内容,引用[1]提到了模型下载的路径,引用[2]和[3]则涉及部署中的注意事项,比如量化版本和tokenizer的问题。特别是引用[3]提到需要修改tokenizer_config.json文件来解决输出问题,这可能是一个关键步骤。 首先,安装VLLM。用户可能需要安装最新版本,使用pip命令。然后,下载模型,根据引用[1]的路径,使用modelscope或者git lfs下载。需要注意模型文件的大小,引用[2]提到量化版本可能更适合消费级显卡,比如4bit的20G版本,这可能影响用户的选择。 然后配置环境,可能需要设置CUDA环境变量。启动服务时,使用vllm的命令行工具,指定模型路径、tensor并行数等参数。如果遇到不输出<think>的问题,引用[3]的解决方法是修改tokenizer配置文件,删除相关token,这需要用户找到对应的json文件进行调整。 还需要考虑硬件要求,比如GPU显存是否足够。如果用户使用消费级显卡,可能需要量化模型,如引用[2]提到的。此外,部署后如何测试服务,比如使用curl或Python客户端发送请求,验证是否正常工作。 可能用户遇到的问题包括模型路径错误、显存不足、tokenizer配置问题等,需要逐一排查。总结步骤应该是:安装依赖→下载模型→调整配置→启动服务→验证测试。同时,提醒用户注意量化版本的选择和可能的配置调整,确保部署顺利。</think>### 分步教程:使用vLLM部署QwQ-32B模型 #### 一、环境准备 1. 安装CUDA驱动 确保显卡驱动支持CUDA 11.8+,通过命令验证: ```bash nvidia-smi ``` 2. 创建虚拟环境(推荐) ```bash conda create -n vllm python=3.9 conda activate vllm ``` #### 二、模型下载 1. 通过ModelScope获取完整模型(需约60GB显存): ```bash pip install modelscope python -c "from modelscope.hub.snapshot_download import snapshot_download; snapshot_download('Qwen/QwQ-32B', cache_dir='./QwQ-32B')" [^1] ``` 2. (可选)下载4bit量化版本(约20GB): ```bash ollama pull QwQ-32B:4bit ``` #### 三、vLLM安装与配置 1. 安装最新版vLLM: ```bash pip install vllm ``` 2. 修改tokenizer配置(解决不输出<think>问题): ```bash vim ./QwQ-32B/tokenizer_config.json # 删除"<think>"相关配置项[^3] ``` #### 四、启动推理服务 1. 基础启动命令(需A100 80G*2): ```bash python -m vllm.entrypoints.openai.api_server \ --model ./QwQ-32B \ --tensor-parallel-size 2 \ --gpu-memory-utilization 0.95 ``` 2. 消费级显卡启动(如RTX 3090 24G*2): ```bash python -m vllm.entrypoints.openai.api_server \ --model QwQ-32B:4bit \ --quantization awq \ --dtype half \ --tensor-parallel-size 2 ``` #### 五、服务验证 1. Python客户端测试: ```python from openai import OpenAI client = OpenAI(base_url="http://localhost:8000/v1") response = client.chat.completions.create( model="QwQ-32B", messages=[{"role": "user", "content": "解释量子纠缠"}] ) print(response.choices[0].message.content) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值