GPT-5 发布:微小进步难掩瓶颈,AI 行业或迎冷静

北京时间 8 月 8 日凌晨,OpenAI 的 GPT-5 在万众期待中登场。距离 GPT-4 发布已过去两年半,然而这场发布会却未重现 ChatGPT 初现时的惊艳,也没有 GPT-4 的跨越式升级,更无 o1 发布时的震撼。1 小时 20 分钟的发布会,充斥着不惊艳的测试数据、与竞品难分高下的用例展示,甚至还出现了被网友抓包的 PPT 错误,种种迹象都在暗示着 AI 大模型的发展或许已进入瓶颈期。

 版本与能力:小步提升,优势微弱 

GPT-5 共推出 4 个版本,包括 GPT-5、GPT-5 mini、GPT-5 nano 以及仅对企业版和每月 200 美元高级版开放的 GPT-5 Pro 模式。对普通用户而言,默认的统一模型 GPT-5 由多个模型组成,依靠实时路由器针对特定查询选择合适模型。

从各项测试数据来看,GPT-5 在智力水平上虽高于 o3,但整体差距不大。在与 Gemini 2.5 Pro、Grok、Claude 4.1 Opus 等竞品的对比中,大多数 “智力” 能力仅稍胜一筹,部分能力甚至并非最优,只能说以微小幅度领先。根据 Artificial Analysis 的排名,GPT-5 目前位列第一,可综合分仅比 o3 高两分、比 Grok 4 仅高一分。

在号称 AGI 终极测试的 Arc Prize 中,GPT-5 更是远远落后于 Grok 4。不过,GPT-5 在计算效率上有所提高,解决复杂问题时使用的 token 数量减少了 50%-80%,能以更少的 token 消耗获得超过 o3 的效果,效率也领先于 Anthropic 的模型。

 编程与工具:优化体验,优势有限 

在编程领域,GPT-5 在 thinking(思考)模式下较前代有明显提升,但与 Anthropic 最新的 Claude 4.1 Opus 相比,优势极其微小,两者仅有 0.3% 的分差。

不过,OpenAI 在编程实际体验上做了不少优化。得益于智能体式编码(Agentic Coding)系统的成熟,GPT-5 擅长处理 “智能体式” 编码任务,能调用多种工具,连续工作数分钟完成复杂指令,甚至会主动沟通解释计划、步骤和发现。其在编程要求的理解、错误改正能力和工具使用能力上的提升,让不懂编程的人也能实现想法。

“修 Bug” 能力的大幅提升是一大亮点。GPT-5 能深入真实代码库理解结构和逻辑,定位问题根源,甚至理解人类工程师架构决策的深层原因,还能自动修复自身 bug。在前端能力方面,现场展示中,GPT-5 生成了包括飞机空气动力学动态展示在内的一系列内容,表现不错。

 多模态与新功能:短板依旧,亮点匮乏 

此前被广泛期待的多模态能力,GPT-5 的提升并不显著。而且与 Gemini 这种大一统模型不同,GPT-5 仍主要只能进行文字和图像理解,不支持音频输入 / 输出、图像生成和视频处理,短期内难以追上刚发布的 Genie 3。

新功能方面更是乏善可陈。写作上的优化在演示中并不直观,难以看出与 4o 的大区别;语音功能虽自然且新增视频输入功能,但 Grok 4 的超高语音回应速度更令人印象深刻;记忆能力升级实际只是推出了与 Gmail 和 Google Calendar 的集成功能,与 “记忆” 关联性不强;个性化功能仅允许用户自定义聊天界面颜色,让人不禁觉得前沿技术公司已无太多新内容可展示。

 惊喜之处:幻觉降低,上下文跃升 

尽管综合表现平淡,但 GPT-5 在一些小方面的提升可圈可点。幻觉和安全性上,其出现事实错误的概率比 GPT-4o 低约 45%,比 OpenAI o3 低约 80%,不到 1% 的幻觉率对实际落地应用极其重要。

上下文能力也有显著进步,所有 GPT-5 版本支持的上下文拓展到 400k,远超 o3、4o 的 128k 默认版本上下文。在大海捞针测试中,准确率比 o3 提升了将近一倍,处理长文本的能力明显强化,对编程、写作、分析等复杂任务影响颇大。

 价格:杀招出手,凸显无奈 

GPT-5 在价格上颇具竞争力。对 C 端用户,免费用户可使用且有慷慨的次数限制,达到上限后自动切换到 GPT-5 mini 模型,Plus 用户则有更高使用额度。对 API 用户,每百万 token 输入 1.25 美元,输出 10 美元,不仅比 GPT 4o 便宜,甚至低于以 “低价” 著称的 Gemini 2.5 Pro,mini 和 nano 的价格也低于主要竞争对手同等级模型。

一个一直以技术领先为核心的公司开始打价格战,这既是发布会的最大亮点,也是最令人叹息之处,暗示着技术快速发展期或许已结束。

 发布会:错误频发,反响平平 

这场发布会堪称灾难。刚开始就被网友发现 SWE Benchmark 数据展示比例错误,以凸显 GPT-5 的提升,类似错误在 Tau 2 Benchmark 的展示中也有出现。对于已深陷 “炒作大师” 印象的 OpenAI 来说,这些错误无疑火上浇油,坐实了其炒作、不可信的形象。

演示过程除了最后用 GPT-5 的 Cursor 生成的城堡小游戏稍亮眼外,其他都冗长、过分专业且效果平平,与 Anthropic 和 Gemnini 更有冲击力的发布会环节相比,缺乏看点。加上奥特曼会前 “GPT-5 比我都强” 的高期待与发布会平淡表现的反差,OpenAI 明显遭遇舆论反噬,发布会后大家对其模型能力的评价一路下滑。

 行业困境:增长放缓,突破难期 

GPT-5 的发布,或许意味着 AI 产业面临阴影笼罩的未来。从 GPT-4.5(Orion)项目失败可见参数 Scaling Law 逐渐放缓,用了十倍算力堆强化学习的 Grok-4 虽在某些测试中表现亮眼,但整体无革命性跨越,暗示 Test-Time Compute(TTC)Scaling Law 也开始见顶。

GPT-5 “小步前进” 式的常规进步,表明低垂的果实已摘完,AI 快速增长的无形之墙愈发明显。我们或许需从 “指数级增长” 的狂欢中清醒,迎接更务实、竞争更激烈的新阶段。AI 行业急需新的突破才能重回快速跨越的节奏,但突破何时、以何种形式到来,尚难预测。可以确定的是,GPT-5 还远不是 AGI。

微小的进步难掩整体的瓶颈,行业或许已进入冷静期,未来的路充满未知与挑战。你对 AI 大模型的未来有何看法?欢迎在评论区留言讨论。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值