昨夜今晨,OpenAI 给全球 AI 圈丢出了一颗震撼弹 ——GPT-4.1 系列横空出世,瞬间成为焦点!
1、三款新模型齐发
GPT-4.1系列这次一口气推出GPT-4.1、GPT-4.1 mini、GPT-4.1 nano三款模型,开发者现在能通过API调用抢先体验。在关键性能上全面超越GPT-4o等。编程与指令遵循能力大幅跃升,更拥有高达100万个上下文token的超大容量,知识储备更新至2024年6月。OpenAI官宣,2025年7月14日将停用GPT-4.5预览版,给开发者留足过渡时间。

2、性能指标爆表
在权威的SWE-bench Verified编程测试中,GPT-4.1成绩亮眼,以54.6%的高分,比GPT-4o提升21.4%,比GPT-4.5提升26.6%,成为编程模型中的佼佼者。处理代码diff时,可靠性超强,在Aider多语言差异基准测试里,成绩远超GPT-4o和GPT-4.5。输出token限制大幅增加,前端编程进步显著。

3、指令遵循稳如泰山
Scale的MultiChallenge基准测试显示,GPT-4.1得分达38.3% ,比GPT-4o高出10.5% 。对格式、负面指令、有序指令等指令遵循大幅提升。在IFEval测试中,GPT-4.1以87.4%的得分大幅领先GPT-4o的81.0% ,极大保障了应用运行的稳定性和可靠性。

4、长上下文处理游刃有余
新模型在长上下文处理方面堪称“开挂”,能轻松应对100万个上下文token,而GPT-4o仅能处理12.8万个。不管复杂信检索还是OpenAI-MRCR、Graphwalks高难度测试,GPT-4.1都能精准应对,堪称处理大型代码库和海量长文档的“神器”。

5、视觉理解表现卓越
在图像理解领域,GPT-4.1系列表现不俗,特别是GPT-4.1 mini,在MMMU、MathVista等图像基准测试中多次击败GPT-4o。处理长视频时,在Video-MME测试里,GPT-4.1以72.0%的高分超越GPT-4o的65.3% 。

OpenAI此次在提升性能同时还降低价格,即时缓存折扣从50%大幅提升至75%,长上下文请求无需额外收费。
OpenAI原博客地址:https://openai.com/index/gpt-4-1/
#OpenAI #GPT - 4.1 #人工智能前沿 #科技新动态

被折叠的 条评论
为什么被折叠?



