GPT-5.1：在 GPT-5 能力基线之上的体验升级、自适应推理与安全新范式

智算菩萨

已于 2025-11-17 23:22:37 修改

阅读量475

点赞数 6

CC 4.0 BY-SA版权

分类专栏：人工智能新时代人工智能前沿知识文章标签：人工智能机器学习 chatgpt

于 2025-11-17 23:15:13 首次发布

本文链接：https://blog.youkuaiyun.com/nmdbbzcl/article/details/154961845

人工智能前沿知识同时被 2 个专栏收录

23 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

人工智能新时代

44 篇文章

订阅专栏

#ModelEngine·创作计划征文活动#

从目前公开的信息看，GPT-5.1 确实已经上线，而且不再是“传言模型”。它是在 GPT-5 基础上的一次代内大升级：一方面延续了 GPT-5 在推理和多学科 benchmark 上的高分表现，另一方面明显把重心挪向“好好说话”“更懂人”和“更省算力”。本文系统梳理 GPT-5.1 的新特点、和 GPT-5/GPT-4o 的差异，以及媒体和用户的实际反馈，同时在结尾给出完整参考文献列表，所有数据都来自公开网页和论文，不做任何杜撰。

一、从 GPT-5 到 GPT-5.1：一次“代内大更新”的背景

2025 年 8 月，OpenAI 发布 GPT-5，并称之为“迄今最智能的模型”，在数学 AIME 2025、SWE-bench Verified、GPQA、MMMU 等基准测试上拿到了当时的 SOTA：例如在 AIME 2025 竞赛题上无工具条件下达到 94.6% 的正确率，在 SWE-bench Verified 上达到了约 74.9% 的修复成功率，在 GPQA 高难科学题中也创下了新的最高分。这些数字让它在“硬实力”上几乎碾压 GPT-4o 和 4.5。

但发布后的几周里，GPT-5 的口碑却并不如预期：包括 The Verge 和 Le Monde 在内的多家媒体都强调，普通用户觉得 GPT-5 虽然更快、更便宜、幻觉更少，却“更冷”“更工具感”，在创意写作和陪伴式对话上的主观体验甚至不如 GPT-4o，迫使 OpenAI 一度把 4o 暂时拉回来了。

与此同时，关于 GPT-5 在数学“突破”的宣传也引发了争议。OpenAI 内部研究人员在社交媒体上曾声称 GPT-5 解决了多道 Erdős 相关的经典难题，但来自 Google DeepMin