从目前公开的信息看,GPT-5.1 确实已经上线,而且不再是“传言模型”。它是在 GPT-5 基础上的一次代内大升级:一方面延续了 GPT-5 在推理和多学科 benchmark 上的高分表现,另一方面明显把重心挪向“好好说话”“更懂人”和“更省算力”。本文系统梳理 GPT-5.1 的新特点、和 GPT-5/GPT-4o 的差异,以及媒体和用户的实际反馈,同时在结尾给出完整参考文献列表,所有数据都来自公开网页和论文,不做任何杜撰。
一、从 GPT-5 到 GPT-5.1:一次“代内大更新”的背景
2025 年 8 月,OpenAI 发布 GPT-5,并称之为“迄今最智能的模型”,在数学 AIME 2025、SWE-bench Verified、GPQA、MMMU 等基准测试上拿到了当时的 SOTA:例如在 AIME 2025 竞赛题上无工具条件下达到 94.6% 的正确率,在 SWE-bench Verified 上达到了约 74.9% 的修复成功率,在 GPQA 高难科学题中也创下了新的最高分。 这些数字让它在“硬实力”上几乎碾压 GPT-4o 和 4.5。
但发布后的几周里,GPT-5 的口碑却并不如预期:包括 The Verge 和 Le Monde 在内的多家媒体都强调,普通用户觉得 GPT-5 虽然更快、更便宜、幻觉更少,却“更冷”“更工具感”,在创意写作和陪伴式对话上的主观体验甚至不如 GPT-4o,迫使 OpenAI 一度把 4o 暂时拉回来了。
与此同时,关于 GPT-5 在数学“突破”的宣传也引发了争议。OpenAI 内部研究人员在社交媒体上曾声称 GPT-5 解决了多道 Erdős 相关的经典难题,但来自 Google DeepMin

订阅专栏 解锁全文
2355

被折叠的 条评论
为什么被折叠?



