【AI】2025 世界各模型的编程能力排行

以下排名仅考察“模型本身写代码的能力”(算法、数据结构、调试、复杂工程),不考察论文、数学推理、多模态。数据来自 2025-08 公开基准(LiveCodeBench v5、CodeForces、HumanEval+、SWE-bench Verified)和社区实测,按中位通过率排序。T0 为当前天花板,T4 为入门玩具


T0 天花板(竞赛/工程双通

模型公开基准实测亮点中位通过率
GPT-4o-2025-05LiveCodeBench 5: 79.2%CodeForces Div1 中位 1900;SWE-bench Verified 43%79%
Claude-3.5-Sonnet-2025-06LiveCodeBench 5: 78.1%10 小时完成完整 Linux 驱动;CF Div1 185078%
Gemini-1.5-Pro-2025-08HumanEval+: 92.4%一次提交通过 Google 内部代码审查 42%77%

2025 结论GPT-4o > Claude-3.5 > Gemini-1.5(差距<2%)。


T1 准天花板(工程强,竞赛中上

模型实测亮点中位通过率
DeepSeek-Coder-V2-0724SWE-bench 34%32k 上下文免费72%
Qwen2.5-Coder-32B-InstructHumanEval+ 88.1%免费商用70%
Llama-3.1-405B-InstructLiveCodeBench 68%开源最大68%

T2 主力模型(日常 CRUD/脚本

模型中位通过率备注
Qwen2.5-Coder-14B65%免费、速度秒开
GPT-3.5-Turbo-202562%廉价 API
CodeLlama-34B-Instruct60%开源可私有

T3 轻量级(边缘/嵌入式

模型中位通过率备注
Qwen2.5-Coder-7B55%树莓派 5 可跑
DeepSeek-Coder-6.7B52%ARM 终端流畅

T4 玩具级(教学/演示

模型中位通过率备注
Qwen2.5-Coder-1.5B42%手机 NPU 可跑
CodeLlama-7B38%入门玩具

一句话记忆(2025-08 有效

T0:GPT-4o / Claude-3.5 / Gemini-1.5(竞赛+工程双通)
T1:DeepSeek-Coder-V2 / Qwen2.5-Coder-32B(工程强,免费)
T2:Qwen2.5-14B / GPT-3.5(日常主力)
T3:7B 级(边缘设备)
T4:1-2B(玩具教学)**

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

墨染天玑

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值