阿里QWQ-32B环境搭建&推理测试

引子

当政企都在热衷于本地部署满血DeepSeek-R1,阿里重磅开源了 QwQ。当大部分人玩不起 671B 的满血,32B 的 QwQ 已让全球开发者陷入狂欢。消费级显卡就能跑,堪称推理模型天花板!QwQ 的评价之所以这么高,主要基于两点:效果比肩满血DeepSeek-R1;仅用 32B 参数, R1 满血版的 1/20。DeepSeek的狂欢也该静一静了,我一直觉得阿里开源的大模型是很业界良心的。OK,我们开始吧!

一、模型介绍

QwQ 是阿里通义千问最新开源的推理模型。它仅用 32B 参数,便与目前公认的开源最强 满血DeepSeek-R1 相媲美。甚至,在多项基准测试中全面超越 o1-mini。DeepSeek 证明了强化学习是提升模型性能的关键钥匙。QwQ 则再一次证明了这一结论,有下图为证:不过,与传统方法不同的是,QwQ 采用了多阶段强化训练策略。

第一阶段,针对数学、编程任务,进行强化学习。

通过校验答案(数学任务)和代码执行(编程任务)提供反馈,确保模型逐步「进化」。

第二阶段,针对通用能力进行强化学习。

实验表明,少量步骤的通用任务训练,即可提升 QwQ 的通用能力,且数学、编程性能没有显著下降。值得注意的是,QwQ 不只是一个推理模型,还集成了先进的 Agent相关能力,如 Function call。

二、环境搭建

模型下载,显存不够下载量化版本

modelscope download --model Qwen/QwQ-32B-GGUF qwq-32b-q4_k_m.gguf --local_dir ./

启动容器

docker run -it --rm --gpus=all --network=host -v /datas/work/zzq/:/workspace pytorch/pytorch:2.4.0-cuda12.4-cudnn9-devel bash

pip install vllm==0.6.0 -i Simple Index

pip install gguf==0.10.0 -i Simple Index

三、推理测试

vllm serve qwq-32B/qwq-32b-q4_k_m.gguf --dtype float16 --api-key 123 --port 3002 --tensor-parallel-size 2 --max-model-len 8192

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

要养家的程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值