OpenAI 发布 GPT-5.1-Codex-Max：专注长时序编程任务的新模型

GPT-5.1-Codex-Max发布

最新推荐文章于 2025-11-24 18:29:32 发布

原创最新推荐文章于 2025-11-24 18:29:32 发布 · 604 阅读

·

9

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#ai编程 #人工智能

2025年11月19日，OpenAI 正式推出了 GPT-5.1-Codex-Max，这是基于 GPT-5.1 基础模型进一步优化的编程专用版本，主要针对需要长时间持续工作的软件工程场景。它已取代之前的 GPT-5.1-Codex，成为 Codex 平台（包括 CLI、Web 界面、IDE 插件等）的默认模型。目前主要面向 ChatGPT Plus/Pro/Team/Enterprise 等付费用户开放，API 支持预计很快跟进。

这个模型的核心目标是提升在复杂、长周期任务中的表现，而不是简单追求基准分数。以下从几个关键方面来简单分析一下它的变化和实际价值。

1. 引入“Compaction”（上下文压缩）机制

以往大模型的上下文窗口虽然很大，但一旦填满就容易丢失前期信息，导致长任务中断或需要手动重置。

GPT-5.1-Codex-Max 在训练阶段就内置了 compaction 机制：当上下文接近上限时，模型会自动总结并保留关键信息（如任务目标、当前代码状态、重要决策），压缩或丢弃次要细节。这样，它能在单个会话中跨越多个上下文窗口，累计处理数百万甚至更多 token。

官方提到，在内部测试中，该模型曾独立运行超过 24 小时，逐步迭代代码、修复测试失败，最终完成任务。这对大型代码库重构、多文件修改、复杂调试等场景特别有帮助。

2. 基准表现与效率改进

在几个主流编程基准上，GPT-5.1-Codex-Max 取得了不错的分数（数据来自 OpenAI 官方报告）：

基准测试	GPT-5.1-Codex-Max	Gemini 3 Pro	前代 GPT-5.1-Codex	Anthropic Sonnet 4.5
SWE-Bench Verified	77.9%	76.2%	~73%	77.2%
SWE-Lancer IC SWE	79.9%	-	66.3%	-

SWE-Bench Verified 是基于真实 GitHub issue 的测试，77.9% 意味着在数百个 Python 项目问题上，能独立生成正确 patch 的成功率较高。
更值得注意的是，在相同推理强度下，它比前代模型少用了约 30% 的思考 token，响应速度和成本都有明显优化。

3. 其他实用改进

Windows 环境支持：专门加强了对 Windows 命令行、路径处理等的适配，以前在 Windows 上容易出错的情况有所减少。
指令遵循更严格：更好地遵守用户在提示或配置文件中设定的规则，减少跑偏。
安全考虑：默认在沙盒环境中运行，网络访问需手动开启，并有实时监控机制。

4. 使用方式与适用场景

在 ChatGPT 中切换到 Codex 模式即可体验。
Codex CLI、VS Code/JetBrains 插件等工具已默认切换到这个模型。
适合：交给它一个仓库，让它独立处理几小时甚至更长的任务（如重构、加功能、写测试）。
不太适合：快速问答或简单补全（用更轻量的模型更快）。

小结

GPT-5.1-Codex-Max 的最大亮点在于解决了长上下文下的连贯性问题，让 AI 在编程任务中能更像一个“能坚持干活”的助手，而不是只适合短时操作的工具。对于日常开发来说，它提供了一种新的工作流选择：把耗时的迭代工作交给模型，自己专注更高层的设计。

目前还在早期阶段，实际效果因项目复杂度而异，建议有条件的开发者自己试用一下（比如用 Codex CLI 跑个中等规模的仓库重构），感受下差异。未来 API 上线后，应该会有更多第三方工具集成。

如果大家有实际使用经验，欢迎在评论区交流！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。