深夜炸弹 阿里推理模型QwQ-32B开源及登顶

3月6日,全球最大的AI开源社区Hugging Face更新了大模型榜单,深夜突发,开源的阿里通义千问推理模型QwQ-32B成功登顶。据了解,千问QwQ-32B在数学、代码及通用能力上实现质的飞跃,整体性能比肩DeepSeek-R1,并突破性地让高性能推理模型在消费级显卡上实现本地部署,大幅降低了模型应用成本。

阿里开源了最新的推理模型 QwQ-32B,有3大亮点:

能够与当前最先进的推理模型DeepSeek-R1(满血哦,不是蒸馏) 和 o1-mini相媲美

推理模型中集成了与 Agent 相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。

小尺寸,不要671B,只要32B,推理门槛低

 QwQ-32B 与其他领先模型的性能对比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。

QwQ-32B如何炼成的?

在冷启动的基础上开展了大规模强化学习:

在初始阶段,特别针对数学和编程任务进行了 RL 训练。与依赖传统的奖励模型(reward model)不同,通过校验生成答案的正确性来为数学问题提供反馈,并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码的反馈。

在第一阶段的 RL 过后,增加了另一个针对通用能力的 RL。此阶段使用通用奖励模型和一些基于规则的验证器进行训练。通过少量步骤的通用 RL,可以提升其他通用能力,同时在数学和编程任务上的性能没有显著下降。

QwQ-32B技术要点

模型类型: Causal Language Models
训练阶段:预训练与后训练(包括监督微调和强化学习)
架构:采用 RoPE、SwiGLU、RMSNorm 和注意力 QKV 偏置的 Transformer 架构
参数数量:32.5B
非嵌入层参数数量:31.0B
层数:64 层
注意力头数量(GQA):Q 为 40 个,KV 为 8 个
上下文长度:完整支持 131,072 个tokens
一、千问QwQ-32B:参数少但性能炸裂
阿里通义千问团队今日凌晨正式开源推理模型QwQ-32B,仅凭320亿参数(非嵌入参数31亿),竟在多项关键指标上追平甚至超越参数规模超6710亿的顶尖模型DeepSeek-R1!

性能亮点速览:
• 数学推理:在AIME24评测中表现与DeepSeek-R1持平,远超同类模型o1-mini;
• 代码生成:LiveCodeBench测试中,代码通过率与DeepSeek-R1相当;
• 通用能力:在指令遵循(IFEval)、函数调用(BFCL)等测试中,综合得分超越DeepSeek-R1;
• 超长上下文:支持131K token的输入长度,可处理复杂长文本任务。

更让开发者狂喜的是:QwQ-32B采用密集架构(Dense),无需复杂并行技术,普通显卡(如苹果M4 Max芯片笔记本)即可本地部署!成本仅为DeepSeek-R1的1/10,堪称中小企业的“生产力救星”。

怎么使用QwQ-32B
from transformers import AutoModelForCausalLM, AutoTokenizer
 
model_name = "Qwen/QwQ-32B"
 
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
 
prompt = "How many r's are in the word \"strawberry\""
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
 
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
 
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids inzip(model_inputs.input_ids, generated_ids)
]
 
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

二、技术突破:强化学习(RL)炼就“思考习惯”
QwQ-32B的逆天表现,源于阿里在**大规模强化学习(RL)**上的创新实践。团队通过两阶段训练,让模型学会“像人类一样思考”:

1. 第一阶段:专攻数学与代码
• 数学任务:通过答案正确性校验器提供反馈,而非传统奖励模型;
• 代码任务:搭建代码执行服务器,实时测试生成代码是否通过用例;
• 结果:数学推导精准度、代码生成效率持续提升,未出现性能瓶颈。

2. 第二阶段:通用能力跃迁
• 引入通用奖励模型+规则验证器,少量训练即提升指令遵循、人类偏好对齐等能力;
• 关键发现:RL训练中,“思考模式”比答案正确性更重要(与斯坦福最新研究结论一致)。

划时代意义:QwQ-32B证明,中等模型+RL训练的组合,可突破参数规模限制,甚至挑战巨型MoE模型!

三、开源生态:开发者零门槛体验
阿里此次诚意拉满,全链路开放模型资源:
• 模型下载:Hugging Face、ModelScope同步上线,Apache 2.0协议商用无忧;
• 在线Demo:Hugging Face Spaces提供即时交互体验;
• API集成:示例代码已公开,快速接入现有系统。

网友实测反馈:
• “在MacBook上跑起来毫无压力,写代码比GPT-4还流畅!”
• “Agent功能绝了,调用工具时还能自我纠错!”

四、行业影响:AI平民化时代来临
QwQ-32B的开源或将改写行业规则:
• 学术圈:提供高质量基座模型,加速推理能力研究;
• 企业端:降低AI部署成本,推动金融、医疗、物流等场景落地;
• 伦理责任:阿里承诺同步开展合规性研究,平衡技术与社会责任。

专家评价:

“这是AI模型发展的重要转折点——性能天花板不再由参数数量决定,而是训练方法的革新。”

五、立即体验:点击直达
🔥尝鲜入口:

 在线聊天:Qwen Chat
• 模型下载:Hugging Face仓库
• 技术解读:官方博客

未来已来:QwQ-32B不仅是一次技术突破,更预示着**AGI(通用人工智能)**的可能路径——强大的基座模型+规模化RL,或许正是打开智能之门的钥匙。快下载模型,加入这场AI革命吧!

<think>嗯,用户想了解如何部署qwq-32b模型到VLLM平台上。首先,我需要回忆一下VLLM的基本知识。VLLM是一个高效推理和部署框架,支持大规模语言模型,特别是优化了自回归模型的推理速度。那部署模型的一般步骤是什么呢?通常需要安装环境、下载模型、配置参数、启动服务。 接下来,用户提到的qwq-32b模型,我需要确认是否有相关的引用信息。查看用户提供的引用内容,引用[1]提到了模型下载的路径,引用[2]和[3]则涉及部署中的注意事项,比如量化版本和tokenizer的题。特别是引用[3]提到需要修改tokenizer_config.json文件来解决输出题,这可能是一个关键步骤。 首先,安装VLLM。用户可能需要安装最新版本,使用pip命令。然后,下载模型,根据引用[1]的路径,使用modelscope或者git lfs下载。需要注意模型文件的大小,引用[2]提到量化版本可能更适合消费级显卡,比如4bit的20G版本,这可能影响用户的选择。 然后配置环境,可能需要设置CUDA环境变量。启动服务时,使用vllm的命令行工具,指定模型路径、tensor并行数等参数。如果遇到不输出<think>的题,引用[3]的解决方法是修改tokenizer配置文件,删除相关token,这需要用户找到对应的json文件进行调整。 还需要考虑硬件要求,比如GPU显存是否足够。如果用户使用消费级显卡,可能需要量化模型,如引用[2]提到的。此外,部署后如何测试服务,比如使用curl或Python客户端发送请求,验证是否正常工作。 可能用户遇到的题包括模型路径错误、显存不足、tokenizer配置题等,需要逐一排查。总结步骤应该是:安装依赖→下载模型→调整配置→启动服务→验证测试。同时,提醒用户注意量化版本的选择和可能的配置调整,确保部署顺利。</think>### 分步教程:使用vLLM部署QwQ-32B模型 #### 一、环境准备 1. 安装CUDA驱动 确保显卡驱动支持CUDA 11.8+,通过命令验证: ```bash nvidia-smi ``` 2. 创建虚拟环境(推荐) ```bash conda create -n vllm python=3.9 conda activate vllm ``` #### 二、模型下载 1. 通过ModelScope获取完整模型(需约60GB显存): ```bash pip install modelscope python -c "from modelscope.hub.snapshot_download import snapshot_download; snapshot_download('Qwen/QwQ-32B', cache_dir='./QwQ-32B')" [^1] ``` 2. (可选)下载4bit量化版本(约20GB): ```bash ollama pull QwQ-32B:4bit ``` #### 三、vLLM安装与配置 1. 安装最新版vLLM: ```bash pip install vllm ``` 2. 修改tokenizer配置(解决不输出<think>题): ```bash vim ./QwQ-32B/tokenizer_config.json # 删除"<think>"相关配置项[^3] ``` #### 四、启动推理服务 1. 基础启动命令(需A100 80G*2): ```bash python -m vllm.entrypoints.openai.api_server \ --model ./QwQ-32B \ --tensor-parallel-size 2 \ --gpu-memory-utilization 0.95 ``` 2. 消费级显卡启动(如RTX 3090 24G*2): ```bash python -m vllm.entrypoints.openai.api_server \ --model QwQ-32B:4bit \ --quantization awq \ --dtype half \ --tensor-parallel-size 2 ``` #### 五、服务验证 1. Python客户端测试: ```python from openai import OpenAI client = OpenAI(base_url="http://localhost:8000/v1") response = client.chat.completions.create( model="QwQ-32B", messages=[{"role": "user", "content": "解释量子纠缠"}] ) print(response.choices[0].message.content) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值