1. 背景
近年来,AI 代码编辑器如 Cursor 和 Windsurf 在国内市场颇受欢迎,而开源方案 Cline + DeepSeek V3 也随着 DeepSeek V3 和 R1 的崛起逐步被开发者接受。然而,2025 年1月29日,阿里正式推出了 Qwen 2.5-Max,这款模型在各大评测基准上展现了全球领先的能力。其编程实战能力是否能匹敌 DeepSeek V3、GPT-4o 甚至 Claude 3.5 Sonnet?本文将重点探讨 Qwen 2.5-Max 在实际开发中的表现。
2. Qwen 2.5-Max 2025.1.29 版简介
Qwen 2.5-Max 在多个权威基准测试(如 MMLU-Pro、LiveCodeBench、LiveBench 和 Arena-Hard)上取得了优异成绩,展现了强大的知识理解能力、编程能力以及人类偏好对齐能力。在多个评测中,其性能比肩 Claude 3.5 Sonnet,并几乎全面超越 GPT-4o、DeepSeek V3 及 Llama-3.1-405B。
此外,Qwen 2.5-Max 现已上架百炼平台,开发者可以通过 API 调用使用,且在 2025 年 5 月 18 日前,每个账户可免费获得 100 万 token 额度。