OpenAI发布GPT-4.1系列模型,性能大幅提升,碾压4o

OpenAI 发布了三款全新的 AI 模型:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。这些新模型在多个方面超越了其前任——GPT-4o 系列,尤其在编程、指令执行和长文本理解上取得了显著进展。新一代的 GPT-4.1 系列不仅提供了更强的性能,还对成本和延迟进行了优化,进一步推动了 AI 技术在实际应用中的普及与落地。

GPT-4.1 系列在多个领域的性能提升,意味着它已成为更加适合真实世界任务的工具,尤其是在以下几个关键领域:

  • 编程能力:GPT-4.1 在 SWE-bench Verified 基准测试中的得分达到了 54.6%,相比 GPT-4o 提升了 21.4%,超过 GPT-4.5 则提高了 26.6%。这一成绩使其成为目前编程领域的领先 AI 模型,特别适用于需要高精度代码生成和错误修正的场景。

  • 指令执行能力:在 Scale 的 MultiChallenge 基准测试中,GPT-4.1 的得分为 38.3%,较 GPT-4o 提高了 10.5%。这一改进意味着 GPT-4.1 在理解和执行复杂指令上的能力得到了显著增强,能够更好地处理多样化的任务需求。

  • 长文本理解:GPT-4.1 在 Video-MME 基准测试中表现出色,在“长无字幕”类别中取得了 72.0% 的得分,较 GPT-4o 提高了 6.7%。这一进步表明,GPT-4.1 在理解长文本内容方面具有更高的精确度,特别是在需要理解多重上下文信息的任务中表现尤为突出。

GPT-4.1 family intelligence by latency

根据不同的应用场景,GPT-4.1 系列还推出了适用于不同任务需求的变种模型,进一步提升了 AI 在低延迟、高性能任务中的表现:

  • GPT-4.1 mini:GPT-4.1 mini 相比 GPT-4o 在多个基准测试中表现优异,同时将延迟减少了近 50%, 成本降低了 83%。它不仅保持了和 GPT-4o 相当的智能水平,还提供了更低的响应时间和更高的性价比,特别适合需要快速响应的任务,如实时数据处理和低延迟计算任务。

  • GPT-4.1 nano:作为最小的模型,GPT-4.1 nano 是专为低延迟和低成本需求设计的 AI 模型。它在 MMLU 上得分 80.1%,在 GPQA 上得分 50.3%,在 Aider polyglot coding 上得分 9.8%,这些成绩均优于GPT-4o mini。GPT-4.1 nano适用于分类、自动补全等任务,尤其是在计算资源有限的环境中,它依然能够提供卓越的性能。

GPT-4.1 系列的升级不仅在各类基准测试中表现卓越,更在实际应用中展现了强大的潜力。尤其是在智能代理系统的领域,GPT-4.1 的改进使其成为一个理想选择。智能代理可以独立执行任务,如从大文档中提取信息、处理客户请求、自动化软件工程等,这些功能的提升得益于 GPT-4.1 在指令理解和长文本处理上的强大能力。

开发者可以通过 Responses API 等工具,构建更加高效和可靠的代理系统,使其在复杂环境中也能独立完成任务,降低了人力干预的需求,并提高了工作效率。

随着 GPT-4.1 系列的发布,GPT-4.5 Preview 将在 2025 年 7 月 14 日正式停用。GPT-4.5 曾作为一款研究预览版,探索大规模计算模型的潜力,但随着 GPT-4.1 的推出,它在性能、成本和延迟方面的优势使得 GPT-4.5 不再适合持续使用。GPT-4.5 在创作、写作质量、幽默感等方面的创新,将继续融入到未来的 API 模型中,以确保这些独特的特点不被遗失。

GPT-4.1 系列不仅提供了强大的性能优势,还通过优化延迟和降低成本,显著提升了 AI 模型的适用性。随着 GPT-4.1 系列的全面应用,开发者将能在多种任务场景中获得更高效、更智能的解决方案。

GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 能够处理最多 100 万个 tokens 的上下文——相比于之前的 GPT-4o 模型的 128,000 个 tokens,提升了很多。100 万个 tokens 相当于超过 8 份完整的 React 代码库,因此长上下文特别适合处理大型代码库或大量长文档。

目前 GPT-4.1、GPT-4.1 mini  和  GPT-4.1 nano 已向所有开发人员推出。

GPT-4.1 输入/输出费用为每百万 token 2 美元和 8 美元,较 GPT-4o 便宜 26%。提示词缓存折扣提高至 75%,长上下文无额外费用。

 大模型从理论到应用开发 

 必读这三本!

图片

《大模型技术30讲》

塞巴斯蒂安·拉施卡|著

叶文滔 | 译

GitHub 项目 LLMs-from-scratch(star数44k)作者、大模型独角兽公司 Lightning AI 工程师倾力打造,全书采用独特的一问一答式风格,探讨了当今机器学习和人工智能领域中最重要的 30 个问题,旨在帮助读者了解最新的技术进展。

内容共分为五个部分:神经网络与深度学习、计算机视觉、自然语言处理、生产与部署、预测性能与模型评测。每一章都围绕一个问题展开,不仅针对问题做出了相应的解释,并配有若干图表,还给出了练习供读者检验自身是否已理解所学内容。

图片

《从零构建大模型》

塞巴斯蒂安·拉施卡|著

覃立波,冯骁骋,刘乾 | 译

全网疯传的大模型教程,由畅销书作家塞巴斯蒂安•拉施卡撰写,通过清晰的文字、图表和实例,逐步指导读者创建自己的大模型。

在本书中,读者将学习如何规划和编写大模型的各个组成部分、为大模型训练准备适当的数据集、进行通用语料库的预训练,以及定制特定任务的微调。此外,本书还将探讨如何利用人工反馈确保大模型遵循指令,以及如何将预训练权重加载到大模型中。还有惊喜彩蛋 DeepSeek,作者深入解析构建与优化推理模型的方法和策略。

图片

《大模型应用开发极简入门:基于GPT-4和ChatGPT(第2版)》 

奥利维耶·卡埃朗,[法] 玛丽–艾丽斯·布莱特 | 著

何文斯 | 译

深受读者喜爱的大模型应用开发图书升级版,作者为初学者提供了一份清晰、全面的“最小可用知识”,带领你快速了解 GPT-4 和 ChatGPT 的工作原理及优势,并在此基础上使用流行的 Python 编程语言构建大模型应用。

升级版在旧版的基础上进行了全面更新,融入了大模型应用开发的最新进展,比如 RAG、GPT-4 新特性的应用解析等。随书赠 DeepSeek × Dify 应用开发案例,书中还提供了大量简单易学的示例,帮你理解相关概念并将其应用在自己的项目中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值