引子
当政企都在热衷于本地部署满血DeepSeek-R1,阿里重磅开源了 QwQ。当大部分人玩不起 671B 的满血,32B 的 QwQ 已让全球开发者陷入狂欢。消费级显卡就能跑,堪称推理模型天花板!QwQ 的评价之所以这么高,主要基于两点:效果比肩满血DeepSeek-R1;仅用 32B 参数, R1 满血版的 1/20。DeepSeek的狂欢也该静一静了,我一直觉得阿里开源的大模型是很业界良心的。OK,我们开始吧!
一、模型介绍
QwQ 是阿里通义千问最新开源的推理模型。它仅用 32B 参数,便与目前公认的开源最强 满血DeepSeek-R1 相媲美。甚至,在多项基准测试中全面超越 o1-mini。DeepSeek 证明了强化学习是提升模型性能的关键钥匙。QwQ 则再一次证明了这一结论,有下图为证:不过,与传统方法不同的是,QwQ 采用了多阶段强化训练策略。
第一阶段,针对数学、编程任务,进行强化学习。
通过校验答案(数学任务)和代码执行(编程任务)提供反馈,确保模型逐步「进化」。
第二阶段,针对通用能力进行强化学习。
实验表明,少量步骤的通用任务训练,即可提升 QwQ 的通用能力,且数学、编程性能没有显著下降。值得注意的是,QwQ 不只是一个推理模型,还集成了先进的 Agent相关能力,如 Function call。
二、环境搭建
模型下载,显存不够下载量化版本
modelscope download --model Qwen/QwQ-32B-GGUF qwq-32b-q4_k_m.gguf --local_dir ./
启动容器
docker run -it --rm --gpus=all --network=host -v /datas/work/zzq/:/workspace pytorch/pytorch:2.4.0-cuda12.4-cudnn9-devel bash
pip install vllm==0.6.0 -i Simple Index
pip install gguf==0.10.0 -i Simple Index
三、推理测试
vllm serve qwq-32B/qwq-32b-q4_k_m.gguf --dtype float16 --api-key 123 --port 3002 --tensor-parallel-size 2 --max-model-len 8192