GPT-5.1:在 GPT-5 能力基线之上的体验升级、自适应推理与安全新范式

#ModelEngine·创作计划征文活动#

从目前公开的信息看,GPT-5.1 确实已经上线,而且不再是“传言模型”。它是在 GPT-5 基础上的一次代内大升级:一方面延续了 GPT-5 在推理和多学科 benchmark 上的高分表现,另一方面明显把重心挪向“好好说话”“更懂人”和“更省算力”。本文系统梳理 GPT-5.1 的新特点、和 GPT-5/GPT-4o 的差异,以及媒体和用户的实际反馈,同时在结尾给出完整参考文献列表,所有数据都来自公开网页和论文,不做任何杜撰。


一、从 GPT-5 到 GPT-5.1:一次“代内大更新”的背景

2025 年 8 月,OpenAI 发布 GPT-5,并称之为“迄今最智能的模型”,在数学 AIME 2025、SWE-bench Verified、GPQA、MMMU 等基准测试上拿到了当时的 SOTA:例如在 AIME 2025 竞赛题上无工具条件下达到 94.6% 的正确率,在 SWE-bench Verified 上达到了约 74.9% 的修复成功率,在 GPQA 高难科学题中也创下了新的最高分。 这些数字让它在“硬实力”上几乎碾压 GPT-4o 和 4.5。

但发布后的几周里,GPT-5 的口碑却并不如预期:包括 The VergeLe Monde 在内的多家媒体都强调,普通用户觉得 GPT-5 虽然更快、更便宜、幻觉更少,却“更冷”“更工具感”,在创意写作和陪伴式对话上的主观体验甚至不如 GPT-4o,迫使 OpenAI 一度把 4o 暂时拉回来了。

与此同时,关于 GPT-5 在数学“突破”的宣传也引发了争议。OpenAI 内部研究人员在社交媒体上曾声称 GPT-5 解决了多道 Erdős 相关的经典难题,但来自 Google DeepMin

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

智算菩萨

欢迎阅读最新融合AI编程内容

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值