2025年11月19日,OpenAI 正式推出了 GPT-5.1-Codex-Max,这是基于 GPT-5.1 基础模型进一步优化的编程专用版本,主要针对需要长时间持续工作的软件工程场景。它已取代之前的 GPT-5.1-Codex,成为 Codex 平台(包括 CLI、Web 界面、IDE 插件等)的默认模型。目前主要面向 ChatGPT Plus/Pro/Team/Enterprise 等付费用户开放,API 支持预计很快跟进。
这个模型的核心目标是提升在复杂、长周期任务中的表现,而不是简单追求基准分数。以下从几个关键方面来简单分析一下它的变化和实际价值。
1. 引入“Compaction”(上下文压缩)机制
以往大模型的上下文窗口虽然很大,但一旦填满就容易丢失前期信息,导致长任务中断或需要手动重置。
GPT-5.1-Codex-Max 在训练阶段就内置了 compaction 机制:当上下文接近上限时,模型会自动总结并保留关键信息(如任务目标、当前代码状态、重要决策),压缩或丢弃次要细节。这样,它能在单个会话中跨越多个上下文窗口,累计处理数百万甚至更多 token。
官方提到,在内部测试中,该模型曾独立运行超过 24 小时,逐步迭代代码、修复测试失败,最终完成任务。这对大型代码库重构、多文件修改、复杂调试等场景特别有帮助。
2. 基准表现与效率改进
在几个主流编程基准上,GPT-5.1-Codex-Max 取得了不错的分数(数据来自 OpenAI 官方报告):
| 基准测试 | GPT-5.1-Codex-Max | Gemini 3 Pro | 前代 GPT-5.1-Codex | Anthropic Sonnet 4.5 |
|---|---|---|---|---|
| SWE-Bench Verified | 77.9% | 76.2% | ~73% | 77.2% |
| SWE-Lancer IC SWE | 79.9% | - | 66.3% | - |
- SWE-Bench Verified 是基于真实 GitHub issue 的测试,77.9% 意味着在数百个 Python 项目问题上,能独立生成正确 patch 的成功率较高。
- 更值得注意的是,在相同推理强度下,它比前代模型少用了约 30% 的思考 token,响应速度和成本都有明显优化。
3. 其他实用改进
- Windows 环境支持:专门加强了对 Windows 命令行、路径处理等的适配,以前在 Windows 上容易出错的情况有所减少。
- 指令遵循更严格:更好地遵守用户在提示或配置文件中设定的规则,减少跑偏。
- 安全考虑:默认在沙盒环境中运行,网络访问需手动开启,并有实时监控机制。
4. 使用方式与适用场景
- 在 ChatGPT 中切换到 Codex 模式即可体验。
- Codex CLI、VS Code/JetBrains 插件等工具已默认切换到这个模型。
- 适合:交给它一个仓库,让它独立处理几小时甚至更长的任务(如重构、加功能、写测试)。
- 不太适合:快速问答或简单补全(用更轻量的模型更快)。
小结
GPT-5.1-Codex-Max 的最大亮点在于解决了长上下文下的连贯性问题,让 AI 在编程任务中能更像一个“能坚持干活”的助手,而不是只适合短时操作的工具。对于日常开发来说,它提供了一种新的工作流选择:把耗时的迭代工作交给模型,自己专注更高层的设计。
目前还在早期阶段,实际效果因项目复杂度而异,建议有条件的开发者自己试用一下(比如用 Codex CLI 跑个中等规模的仓库重构),感受下差异。未来 API 上线后,应该会有更多第三方工具集成。
如果大家有实际使用经验,欢迎在评论区交流!
GPT-5.1-Codex-Max发布
390

被折叠的 条评论
为什么被折叠?



