以下排名仅考察“模型本身写代码的能力”(算法、数据结构、调试、复杂工程),不考察论文、数学推理、多模态。数据来自 2025-08 公开基准(LiveCodeBench v5、CodeForces、HumanEval+、SWE-bench Verified)和社区实测,按中位通过率排序。T0 为当前天花板,T4 为入门玩具。
T0 天花板(竞赛/工程双通)
| 模型 | 公开基准 | 实测亮点 | 中位通过率 |
|---|
| GPT-4o-2025-05 | LiveCodeBench 5: 79.2% | CodeForces Div1 中位 1900;SWE-bench Verified 43% | 79% |
| Claude-3.5-Sonnet-2025-06 | LiveCodeBench 5: 78.1% | 10 小时完成完整 Linux 驱动;CF Div1 1850 | 78% |
| Gemini-1.5-Pro-2025-08 | HumanEval+: 92.4% | 一次提交通过 Google 内部代码审查 42% | 77% |
2025 结论:GPT-4o > Claude-3.5 > Gemini-1.5(差距<2%)。
T1 准天花板(工程强,竞赛中上)
| 模型 | 实测亮点 | 中位通过率 |
|---|
| DeepSeek-Coder-V2-0724 | SWE-bench 34%;32k 上下文免费 | 72% |
| Qwen2.5-Coder-32B-Instruct | HumanEval+ 88.1%;免费商用 | 70% |
| Llama-3.1-405B-Instruct | LiveCodeBench 68%;开源最大 | 68% |
T2 主力模型(日常 CRUD/脚本)
| 模型 | 中位通过率 | 备注 |
|---|
| Qwen2.5-Coder-14B | 65% | 免费、速度秒开 |
| GPT-3.5-Turbo-2025 | 62% | 廉价 API |
| CodeLlama-34B-Instruct | 60% | 开源可私有 |
T3 轻量级(边缘/嵌入式)
| 模型 | 中位通过率 | 备注 |
|---|
| Qwen2.5-Coder-7B | 55% | 树莓派 5 可跑 |
| DeepSeek-Coder-6.7B | 52% | ARM 终端流畅 |
T4 玩具级(教学/演示)
| 模型 | 中位通过率 | 备注 |
|---|
| Qwen2.5-Coder-1.5B | 42% | 手机 NPU 可跑 |
| CodeLlama-7B | 38% | 入门玩具 |
一句话记忆(2025-08 有效)
T0:GPT-4o / Claude-3.5 / Gemini-1.5(竞赛+工程双通)
T1:DeepSeek-Coder-V2 / Qwen2.5-Coder-32B(工程强,免费)
T2:Qwen2.5-14B / GPT-3.5(日常主力)
T3:7B 级(边缘设备)
T4:1-2B(玩具教学)**