1 模型介绍
QwQ-Max-Preview是阿里巴巴集团于2025年2月25日正式发布的基于通义千问Qwen2.5-Max的深度推理模型。
-
性能表现
-
数学能力:在MATH-500评测中,数学解题准确率达90.6%,展现出对各类数学主题的全面理解和强大的解题能力。
-
编程能力:在LiveCodeBench评测中,编程竞赛题正确率突破50%,在真实编程场景中的代码生成和问题解决能力表现出色。
-
推理能力:在GPQA评测中准确率达65.2%,科学推理能力达到研究生水平。在全球权威基准测试中,整体表现已超越OpenAI o1-preview等国际主流模型。
-
-
创新机制:创新引入“深度自省”机制,在处理复杂问题时,系统会自动拆解推理步骤,通过多轮自我对话验证逻辑链条,显著提升答案可信度。比如在经典“猜牌问题”测试中,QwQ-Max-Preview通过12步推演最终得出正确结论,推理过程完整度较传统模型提升40%。
-
开源计划:阿里巴巴宣布将QwQ-Max及Qwen2.5-Max模型权重以Apache 2.0协议开源,开发者可通过魔搭社区(ModelScope)及Hugging Face平台获取完整技术文档与部署工具。
-
轻量化版本:针对不同应用场景,团队同步推出轻量化版本QwQ-32B,参数规模压缩至325亿,支持本地部署与低延迟交互,适用于金融风控、医疗诊断等对隐私性敏感的领域。
-
应用支持平台:阿里巴巴同步上线Qwen Chat智能对话平台(chat.qwen.ai),支持多轮推理、代码生成及实时联网搜索功能,用户通过简单交互即可完成数学解题、代码调试等专业任务,响应速度较传统工具提升60%。