【AI】2025 世界各模型的编程能力排行

原创于 2025-11-06 11:28:04 发布 · 2.6k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

AI 专栏收录该内容

18 篇文章

订阅专栏

以下排名仅考察“模型本身写代码的能力”（算法、数据结构、调试、复杂工程），不考察论文、数学推理、多模态。数据来自 2025-08 公开基准（LiveCodeBench v5、CodeForces、HumanEval+、SWE-bench Verified）和社区实测，按中位通过率排序。T0 为当前天花板，T4 为入门玩具。

T0 天花板（竞赛/工程双通）

模型	公开基准	实测亮点	中位通过率
GPT-4o-2025-05	LiveCodeBench 5: 79.2%	CodeForces Div1 中位 1900；SWE-bench Verified 43%	79%
Claude-3.5-Sonnet-2025-06	LiveCodeBench 5: 78.1%	10 小时完成完整 Linux 驱动；CF Div1 1850	78%
Gemini-1.5-Pro-2025-08	HumanEval+: 92.4%	一次提交通过 Google 内部代码审查 42%	77%

2025 结论：GPT-4o > Claude-3.5 > Gemini-1.5（差距<2%）。

T1 准天花板（工程强，竞赛中上）

模型	实测亮点	中位通过率
DeepSeek-Coder-V2-0724	SWE-bench 34%；32k 上下文免费	72%
Qwen2.5-Coder-32B-Instruct	HumanEval+ 88.1%；免费商用	70%
Llama-3.1-405B-Instruct	LiveCodeBench 68%；开源最大	68%

T2 主力模型（日常 CRUD/脚本）

模型	中位通过率	备注
Qwen2.5-Coder-14B	65%	免费、速度秒开
GPT-3.5-Turbo-2025	62%	廉价 API
CodeLlama-34B-Instruct	60%	开源可私有

T3 轻量级（边缘/嵌入式）

模型	中位通过率	备注
Qwen2.5-Coder-7B	55%	树莓派 5 可跑
DeepSeek-Coder-6.7B	52%	ARM 终端流畅

T4 玩具级（教学/演示）

模型	中位通过率	备注
Qwen2.5-Coder-1.5B	42%	手机 NPU 可跑
CodeLlama-7B	38%	入门玩具

一句话记忆（2025-08 有效）

T0：GPT-4o / Claude-3.5 / Gemini-1.5（竞赛+工程双通）
T1：DeepSeek-Coder-V2 / Qwen2.5-Coder-32B（工程强，免费）
T2：Qwen2.5-14B / GPT-3.5（日常主力）
T3：7B 级（边缘设备）
T4：1-2B（玩具教学）**