本文由小黑盒作者@飞碟AI于11月20日发布,转载请标明出处!】
还没有来得及为昨日 Google 的 Gemini 3 Pro 来得及好好庆祝,即将登场的是我们的新选手 GPT‑5.1‑Codex‑Max。
奥特曼昨天还在 X 上点了个赞,看上去一派同行间“良性竞争、互相祝福”的样子。

GPT-5.1-Codex-Max:当 AI 程序员也开始996
昨天就有网友整活,把 sama 的话配了张图。👇

GPT-5.1-Codex-Max:当 AI 程序员也开始996
结果今天,OpenAI 还真就毫无预告,把 GPT-5.1-Codex-Max 扔了出来。
Gemini 3:你个老六。
Musk and Grok 4.1:我们都没意见。

GPT-5.1-Codex-Max:当 AI 程序员也开始996
我们说回Codex。
Codex-Max 是什么定位?
简单讲,它不是类似于 GPT-5 到 GPT-5.1 的那种情感层面的小升级,也不是“写代码更厉害一点”的那种常规升级,而是往“能独立干长活”的方向迈了一大步。
OpenAI 自己的内部工程师每周 95% 在用 Codex,而自从用了它,工程师的 PR 数量提升了 70%。这个数字放到任何公司都是能上报 CEO 的那种。
这次 Codex-Max 的核心升级是一个叫“压缩”(Compaction)的机制。

GPT-5.1-Codex-Max:当 AI 程序员也开始996
以前模型上下文一旦太长就会爆掉,长任务做到一半也可能会出现“跑断气”的情况。现在,它会自动筛掉无用历史,只保留关键线索,把自己清出新的上下文空间,再继续干活。
你可以理解成:AI 程序员不但不忘事,还自己做会议纪要,把重点记下来,垃圾全扔掉,继续下一轮工作。
并且,学会了 996。
内部测试中,它能连续工作超过 24 小时。重构仓库、修失败测试、重新跑 CI,全自己来。

GPT-5.1-Codex-Max:当 AI 程序员也开始996
性能方面,做到了压着谷歌同档产品一头,100%符合昨日奥特曼真实情感。

GPT-5.1-Codex-Max:当 AI 程序员也开始996
SWE-Bench Verified 上 77.9%,比 Gemini 3 Pro 的 76.2% 稍高。
Terminal-Bench 2.0 也领先 4 个点。LiveCodeBench Pro 上两者打成平手,但这套基准本身就被认为很“卷”,能打平也说明实力到了。

GPT-5.1-Codex-Max:当 AI 程序员也开始996
有人可能觉得这点差距没什么,但软件工程任务里,一个点就能拉出一个段位。
而在 OpenAI 自己的工程任务里,Codex-Max 的提升更明显。它训练时加入了 Windows 环境、真实 PR、代码审查、前端 UI、问答等代理式任务,这让它在 Codex CLI 里表现更像一个“能沟通、能执行、能复盘”的队友,而不只是个生成器。
如果你之前用过 GPT-5-Codex,会发现它容易超时、容易上下文塞满、容易把任务做到一半突然跑偏。Codex-Max 最大的提升就是稳。尤其长任务的稳。
OpenAI 给了一个比较直观的例子:让它从头到尾重构整套 Codex CLI 的仓库。
中间遇到上下文接近极限,它就会自动压缩、筛历史,继续往前做。几轮压缩下来,任务没断,结果还真给跑通了。

GPT-5.1-Codex-Max:当 AI 程序员也开始996
工程师最关心的“成本”和“速度”,这次也被当成一级指标优化。
SWE-bench Verified 上,在同等推理模式下,Codex-Max 比上代少用约 30% 思考 token。这意味着做同样一件事,它更便宜、更快、延迟更小。
OpenAI 还新增了 xhigh 推理模式,专门用于“你让它好好想”的场景。
日常任务用 medium 就够,xhigh 则是那种长活、复杂链路、跨文件重构才能触发的。

GPT-5.1-Codex-Max:当 AI 程序员也开始996
说到长活,就不得不提安全性。
Codex 默认在沙盒里运行,网络访问默认关闭,能写的文件范围也被限制在工作区内。
做任何可能“搞坏东西”的操作前,它都会请求批准(昨天已经看到用Gemini 3的受害者了👇)。

GPT-5.1-Codex-Max:当 AI 程序员也开始996
对于现在的 AI 编程工具来说,这些限制并不是为了束手束脚,而是为了防止开发者在连代码都没看懂时,一键把 AI 生成的补丁合到主分支里。
Codex-Max 能干得越久,越需要审查和控制。
OpenAI 这次也很直接地强调:它不是替代人工审查。
它更像是“前置审查者”,把大部分垃圾问题提前捞出来,让真正的人只处理关键事项。

GPT-5.1-Codex-Max:当 AI 程序员也开始996
综合来看,Codex-Max 的方向非常清晰:让 AI 程序员不仅能写代码,还能撑住长时间迭代,把一个复杂任务从“开始”做到“结束”。
而这一点,恰好击中了当下所有模型都想回答的那个问题——AI 能不能扛住真实工程生产力?
Gemini 3 Pro 昨天给了一个“可以的,已经很强”的回答。
OpenAI 今天的回应是:“可以,还能更强,以及我还比你厉害(小声)。”
这两家从昨天到今天的速度,已经很难用“你追我赶”去形容了。
真正值得讨论的是:
当 AI 程序员已经可以做到 996,能跨窗口记忆、能做审查、能做重构、能自主调试,那未来的工程团队会变成什么样?
是效率狂飙的黄金时代,还是协作方式的巨大重置?亦或者是一波恐怖的裁员潮?
这个问题,恐怕一时半会说不清楚。
我是 CyberImmortal,关注我们,带你畅游AI世界!!
902

被折叠的 条评论
为什么被折叠?



