GPT-5.1-Codex-Max：当 AI 程序员也开始996

最新推荐文章于 2025-11-21 20:14:31 发布

原创最新推荐文章于 2025-11-21 20:14:31 发布 · 537 阅读

·

20

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文由小黑盒作者@飞碟AI于11月20日发布，转载请标明出处！】

还没有来得及为昨日 Google 的 Gemini 3 Pro 来得及好好庆祝，即将登场的是我们的新选手 GPT‑5.1‑Codex‑Max。

奥特曼昨天还在 X 上点了个赞，看上去一派同行间“良性竞争、互相祝福”的样子。

GPT-5.1-Codex-Max：当 AI 程序员也开始996

GPT-5.1-Codex-Max：当 AI 程序员也开始996

昨天就有网友整活，把 sama 的话配了张图。👇

GPT-5.1-Codex-Max：当 AI 程序员也开始996

GPT-5.1-Codex-Max：当 AI 程序员也开始996

结果今天，OpenAI 还真就毫无预告，把 GPT-5.1-Codex-Max 扔了出来。

Gemini 3：你个老六。

Musk and Grok 4.1：我们都没意见。

GPT-5.1-Codex-Max：当 AI 程序员也开始996

GPT-5.1-Codex-Max：当 AI 程序员也开始996

我们说回Codex。

Codex-Max 是什么定位？

简单讲，它不是类似于 GPT-5 到 GPT-5.1 的那种情感层面的小升级，也不是“写代码更厉害一点”的那种常规升级，而是往“能独立干长活”的方向迈了一大步。

OpenAI 自己的内部工程师每周 95% 在用 Codex，而自从用了它，工程师的 PR 数量提升了 70%。这个数字放到任何公司都是能上报 CEO 的那种。

这次 Codex-Max 的核心升级是一个叫“压缩”（Compaction）的机制。

GPT-5.1-Codex-Max：当 AI 程序员也开始996

GPT-5.1-Codex-Max：当 AI 程序员也开始996

以前模型上下文一旦太长就会爆掉，长任务做到一半也可能会出现“跑断气”的情况。现在，它会自动筛掉无用历史，只保留关键线索，把自己清出新的上下文空间，再继续干活。

你可以理解成：AI 程序员不但不忘事，还自己做会议纪要，把重点记下来，垃圾全扔掉，继续下一轮工作。

并且，学会了 996。

内部测试中，它能连续工作超过 24 小时。重构仓库、修失败测试、重新跑 CI，全自己来。

GPT-5.1-Codex-Max：当 AI 程序员也开始996

GPT-5.1-Codex-Max：当 AI 程序员也开始996

性能方面，做到了压着谷歌同档产品一头，100%符合昨日奥特曼真实情感。

GPT-5.1-Codex-Max：当 AI 程序员也开始996

GPT-5.1-Codex-Max：当 AI 程序员也开始996

SWE-Bench Verified 上 77.9%，比 Gemini 3 Pro 的 76.2% 稍高。

Terminal-Bench 2.0 也领先 4 个点。LiveCodeBench Pro 上两者打成平手，但这套基准本身就被认为很“卷”，能打平也说明实力到了。

GPT-5.1-Codex-Max：当 AI 程序员也开始996

GPT-5.1-Codex-Max：当 AI 程序员也开始996

有人可能觉得这点差距没什么，但软件工程任务里，一个点就能拉出一个段位。

而在 OpenAI 自己的工程任务里，Codex-Max 的提升更明显。它训练时加入了 Windows 环境、真实 PR、代码审查、前端 UI、问答等代理式任务，这让它在 Codex CLI 里表现更像一个“能沟通、能执行、能复盘”的队友，而不只是个生成器。

如果你之前用过 GPT-5-Codex，会发现它容易超时、容易上下文塞满、容易把任务做到一半突然跑偏。Codex-Max 最大的提升就是稳。尤其长任务的稳。

OpenAI 给了一个比较直观的例子：让它从头到尾重构整套 Codex CLI 的仓库。

中间遇到上下文接近极限，它就会自动压缩、筛历史，继续往前做。几轮压缩下来，任务没断，结果还真给跑通了。

GPT-5.1-Codex-Max：当 AI 程序员也开始996

GPT-5.1-Codex-Max：当 AI 程序员也开始996

工程师最关心的“成本”和“速度”，这次也被当成一级指标优化。

SWE-bench Verified 上，在同等推理模式下，Codex-Max 比上代少用约 30% 思考 token。这意味着做同样一件事，它更便宜、更快、延迟更小。

OpenAI 还新增了 xhigh 推理模式，专门用于“你让它好好想”的场景。

日常任务用 medium 就够，xhigh 则是那种长活、复杂链路、跨文件重构才能触发的。

GPT-5.1-Codex-Max：当 AI 程序员也开始996

GPT-5.1-Codex-Max：当 AI 程序员也开始996

说到长活，就不得不提安全性。

Codex 默认在沙盒里运行，网络访问默认关闭，能写的文件范围也被限制在工作区内。

做任何可能“搞坏东西”的操作前，它都会请求批准（昨天已经看到用Gemini 3的受害者了👇）。

GPT-5.1-Codex-Max：当 AI 程序员也开始996

GPT-5.1-Codex-Max：当 AI 程序员也开始996

对于现在的 AI 编程工具来说，这些限制并不是为了束手束脚，而是为了防止开发者在连代码都没看懂时，一键把 AI 生成的补丁合到主分支里。

Codex-Max 能干得越久，越需要审查和控制。

OpenAI 这次也很直接地强调：它不是替代人工审查。

它更像是“前置审查者”，把大部分垃圾问题提前捞出来，让真正的人只处理关键事项。

GPT-5.1-Codex-Max：当 AI 程序员也开始996

GPT-5.1-Codex-Max：当 AI 程序员也开始996

综合来看，Codex-Max 的方向非常清晰：让 AI 程序员不仅能写代码，还能撑住长时间迭代，把一个复杂任务从“开始”做到“结束”。

而这一点，恰好击中了当下所有模型都想回答的那个问题——AI 能不能扛住真实工程生产力？

Gemini 3 Pro 昨天给了一个“可以的，已经很强”的回答。

OpenAI 今天的回应是：“可以，还能更强，以及我还比你厉害（小声）。”

这两家从昨天到今天的速度，已经很难用“你追我赶”去形容了。

真正值得讨论的是：

当 AI 程序员已经可以做到 996，能跨窗口记忆、能做审查、能做重构、能自主调试，那未来的工程团队会变成什么样？

是效率狂飙的黄金时代，还是协作方式的巨大重置？亦或者是一波恐怖的裁员潮？

这个问题，恐怕一时半会说不清楚。

我是 CyberImmortal，关注我们，带你畅游AI世界！！

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

std86021 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。