深夜炸弹阿里推理模型QwQ-32B开源及登顶

原创已于 2025-03-06 20:50:09 修改 · 1.1k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2025-03-06 20:50:01 首次发布

3月6日，全球最大的AI开源社区Hugging Face更新了大模型榜单，深夜突发，开源的阿里通义千问推理模型QwQ-32B成功登顶。据了解，千问QwQ-32B在数学、代码及通用能力上实现质的飞跃，整体性能比肩DeepSeek-R1，并突破性地让高性能推理模型在消费级显卡上实现本地部署，大幅降低了模型应用成本。

阿里开源了最新的推理模型 QwQ-32B，有3大亮点：

能够与当前最先进的推理模型DeepSeek-R1（满血哦，不是蒸馏）和 o1-mini相媲美

推理模型中集成了与 Agent 相关的能力，使其能够在使用工具的同时进行批判性思考，并根据环境反馈调整推理过程。

小尺寸，不要671B，只要32B，推理门槛低

QwQ-32B 与其他领先模型的性能对比，包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。

QwQ-32B如何炼成的？

在冷启动的基础上开展了大规模强化学习：

在初始阶段，特别针对数学和编程任务进行了 RL 训练。与依赖传统的奖励模型（reward model）不同，通过校验生成答案的正确性来为数学问题提供反馈，并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码的反馈。

在第一阶段的 RL 过后，增加了另一个针对通用能力的 RL。此阶段使用通用奖励模型和一些基于规则的验证器进行训练。通过少量步骤的通用 RL，可以提升其他通用能力，同时在数学和编程任务上的性能没有显著下降。

QwQ-32B技术要点

模型类型： Causal Language Models
训练阶段：预训练与后训练（包括监督微调和强化学习）
架构：采用 RoPE、SwiGLU、RMSNorm 和注意力 QKV 偏置的 Transformer 架构
参数数量：32.5B
非嵌入层参数数量：31.0B
层数：64 层
注意力头数量（GQA）：Q 为 40 个，KV 为 8 个
上下文长度：完整支持 131,072 个tokens
一、千问QwQ-32B：参数少但性能炸裂
阿里通义千问团队今日凌晨正式开源推理模型QwQ-32B，仅凭320亿参数（非嵌入参数31亿），竟在多项关键指标上追平甚至超越参数规模超6710亿的顶尖模型DeepSeek-R1！

性能亮点速览：
• 数学推理：在AIME24评测中表现与DeepSeek-R1持平，远超同类模型o1-mini；
• 代码生成：LiveCodeBench测试中，代码通过率与DeepSeek-R1相当；
• 通用能力：在指令遵循（IFEval）、函数调用（BFCL）等测试中，综合得分超越DeepSeek-R1；
• 超长上下文：支持131K token的输入长度，可处理复杂长文本任务。

更让开发者狂喜的是：QwQ-32B采用密集架构（Dense），无需复杂并行技术，普通显卡（如苹果M4 Max芯片笔记本）即可本地部署！成本仅为DeepSeek-R1的1/10，堪称中小企业的“生产力救星”。

怎么使用QwQ-32B

from transformers import AutoModelForCausalLM, AutoTokenizer
 
model_name = "Qwen/QwQ-32B"
 
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
 
prompt = "How many r's are in the word \"strawberry\""
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
 
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
 
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids inzip(model_inputs.input_ids, generated_ids)
]
 
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

二、技术突破：强化学习（RL）炼就“思考习惯”
QwQ-32B的逆天表现，源于阿里在**大规模强化学习（RL）**上的创新实践。团队通过两阶段训练，让模型学会“像人类一样思考”：

1. 第一阶段：专攻数学与代码
• 数学任务：通过答案正确性校验器提供反馈，而非传统奖励模型；
• 代码任务：搭建代码执行服务器，实时测试生成代码是否通过用例；
• 结果：数学推导精准度、代码生成效率持续提升，未出现性能瓶颈。

2. 第二阶段：通用能力跃迁
• 引入通用奖励模型+规则验证器，少量训练即提升指令遵循、人类偏好对齐等能力；
• 关键发现：RL训练中，“思考模式”比答案正确性更重要（与斯坦福最新研究结论一致）。

划时代意义：QwQ-32B证明，中等模型+RL训练的组合，可突破参数规模限制，甚至挑战巨型MoE模型！

三、开源生态：开发者零门槛体验
阿里此次诚意拉满，全链路开放模型资源：
• 模型下载：Hugging Face、ModelScope同步上线，Apache 2.0协议商用无忧；
• 在线Demo：Hugging Face Spaces提供即时交互体验；
• API集成：示例代码已公开，快速接入现有系统。

网友实测反馈：
• “在MacBook上跑起来毫无压力，写代码比GPT-4还流畅！”
• “Agent功能绝了，调用工具时还能自我纠错！”

四、行业影响：AI平民化时代来临
QwQ-32B的开源或将改写行业规则：
• 学术圈：提供高质量基座模型，加速推理能力研究；
• 企业端：降低AI部署成本，推动金融、医疗、物流等场景落地；
• 伦理责任：阿里承诺同步开展合规性研究，平衡技术与社会责任。

专家评价：

“这是AI模型发展的重要转折点——性能天花板不再由参数数量决定，而是训练方法的革新。”

五、立即体验：点击直达
🔥尝鲜入口：

在线聊天：Qwen Chat
• 模型下载：Hugging Face仓库
• 技术解读：官方博客

未来已来：QwQ-32B不仅是一次技术突破，更预示着**AGI（通用人工智能）**的可能路径——强大的基座模型+规模化RL，或许正是打开智能之门的钥匙。快下载模型，加入这场AI革命吧！