GPT-5震撼登场!解读媒体热评与专家深度解析,AI进化新里程碑

引子

OpenAI 于 2025 年 8 月 7 日正式发布了 GPT-5(包括快速响应模型(gpt-5-main)、深度推理模型(gpt-5-thinking)和实时路由器(gpt-5-router),之前版本对应请参考下表),标志着其旗舰语言模型系列的重大进展。同时,OpenAI 发布了 GPT-5 的系统卡片,详细介绍了模型的架构、推理机制(支持多层次推理,适应不同任务的复杂度)、安全性设计(引入“safe-completion”训练方法,提升模型在处理敏感任务时的安全性)和评估指标(在多个基准测试中,GPT-5 在数学、编程、健康等领域表现优异。)等关键技术细节。(OpenAI CDN)

Model progressions

📰 媒体报道与评价

各大媒体和专业人士对 GPT-5 的评价呈现出多元化的视角,既有对其技术突破的赞赏,也有对其局限性的审慎分析。

OpenAI CEO Sam Altman

1. 《金融时报》 指出,GPT-5 在数学、科学、编程和“氛围编程”(vibe coding)等领域表现出色,能够通过文本提示实时生成软件。然而,尽管在编码基准测试中略优于竞争对手 Anthropic 的模型,但在更广泛的通用人工智能(AGI)影响力和写作质量方面仍显不足。 (金融时报)

2. 《大西洋月刊》 强调,GPT-5 强调可用性而非单纯的智能,提供直观、可适应和个性化的交互体验。它整合了多个过去模型的功能,动态调整以满足用户需求,定位为“人工通用助手”的新阶段。 (The Atlantic)

3. 《路透社》 报道了 GPT-5 的发布,指出其结合了大规模预训练和新的推理技术,如测试时计算(test-time compute)。尽管早期测试者对其编码和问题解决能力给予好评,但与 GPT-4 的进步相比,GPT-5 的提升被认为更为温和。 (Reuters)

4. 《商业内幕》 引用 OpenAI CEO Sam Altman 的话,表示 GPT-5 是朝着 AGI 迈出的重要一步,但仍未实现完全的自主学习能力。Altman 强调,GPT-5 缺乏从新信息中实时学习的能力,虽然是“普遍智能”的体现,但距离 AGI 仍有差距。 (The Verge, Business Insider)

5. 《美联社》 报道了 GPT-5 的发布,认为这是评估生成式 AI 是否取得进展的关键时刻。尽管在技术基准测试中的提升有限,但其结构上的独特性可能为未来的创新铺平道路。 (AP News)


👨‍💻 专业人士与开发者反馈

1. OpenAI 官方开发者指南 详细介绍了 GPT-5 在编码和代理任务方面的表现,称其在 SWE-bench Verified 等基准测试中取得了 74.9% 的高分。开发者反馈称(如下图是官网拷屏的内容),GPT-5 是他们使用过的“最智能的编码模型”,在处理复杂任务时表现出色。 (OpenAI)

Cursor 联合创始人兼首席执行官 Michael Truell

2. 《Latent Space》博客 对 GPT-5 的编码能力给予高度评价,认为其是世界上最强大的编码模型之一。然而,在写作方面,GPT-5 的表现不如 GPT-4.5 和 DeepSeek R1,尤其在商业写作中,GPT-5 的风格被认为较为“LinkedIn 式”,缺乏个性化(如下图)。 (潜在空间)

Writing Example

3. 《TechCrunch》 报道了 GPT-5 在编码、推理和创意设计等方面的表现,称其在编码任务中略优于竞争对手,但在其他领域表现不一。GPT-5 在健康相关问题上的表现尤为突出,减少了幻觉现象,提高了准确性。 (TechCrunch)


GPT-5 多角度技术分析

🛡️ 1. 安全训练方法:Safe-Completion

OpenAI 引入了一种新的安全训练方法——“safe-completion”,旨在提升模型在处理敏感任务时的安全性。(OpenAI)。Safe-completion 将安全训练的重点放在模型输出的安全性上,而不是根据用户输入来确定拒绝的边界(参考下图)。

Refusal training VS Safe-Completion Training

具体来说,这通过两个训练参数来实现(训练过程参考下图):安全约束:在后训练阶段,safe-completion 奖励机制会对违反安全政策的模型回答进行惩罚,惩罚力度根据违规的严重程度而加重。 有用性最大化:对于安全的模型回答,我们会根据其有用性给予奖励——要么直接依据用户明确的目标,要么间接通过提供信息丰富的拒绝回应,并附带有帮助且安全的替代方案。

Overall structure of the safe-completion training stack

如下张表格是在“safe-completion”安全训练背景下,用来定义和衡量模型输出质量的指标体系,具体用于评估模型回答的安全性(Safety)、有用性(Helpfulness)以及回答意图(Intent)。它的作用是帮助模型评估与优化输出的安全性和实用价值,确保模型在安全范围内尽可能提供有价值的回答。

Evaluation rubrics

将“安全完成”(safe-completions)方法应用于 GPT-5(包括推理模型和聊天模型),发现相比于基于拒绝的训练,安全完成训练在提升模型的安全性和有用性方面效果显著。为了与 OpenAI 的 o3 模型进行公平比较,OpenAI报告了 GPT-5 Thinking 与 o3 的性能对比。在对实际产品模型和受控实验的比较中,发现安全完成方法尤其适合处理双重用途的问题。下图展示了安全响应的安全评分和平均有用性评分的对比情况。

Safety VS Helpfulness given safe

🧠 2:减少幻觉和提高模型透明度

OpenAI 在 GPT-5 的开发中加强了安全性,特别是在减少幻觉现象和提高模型透明度方面。根据 OpenAI 的评估,GPT-5 在处理复杂开放性问题时,幻觉率比 GPT-4o 和 o3 模型低约 80%。此外,GPT-5 更加诚实地传达其能力和限制,减少了误导性回答的发生(参考如下图)。 (TechCrunch, OpenAI)

Hallucination rate on open-source prompts

Response-level error rate on de-identified ChatGPT traffic

Deception evals across models

🧪 3. METR 评估报告

METR 团队对 GPT-5 的自主软件能力进行了评估,使用了三种不同的任务套件:HCAST、RE-Bench 和 RE-Bench++。(metr.github.io)

  • GPT-5 在自主软件任务中表现出色,特别是在复杂的 AI 研发和软件工程任务中。如下图主要展示了 AI 代理在自动完成软件任务方面的能力进展,GPT-5(粉色方块)代表了当前顶尖水平,显示出比之前版本更长的任务持续能力。

Autonomous Software Task Completion Time of AI Agents

  • 与 OpenAI o3 模型相比,GPT-5 在任务完成时间上有所提高,显示出更强的自主性。随着 GPT 模型版本的升级,模型能够成功完成的任务复杂度和持续时间大幅提升,GPT-5 在该指标上达到了新高度,能处理约 2 小时长的任务(如下图),代表了语言模型在持续处理复杂、长时间任务上的显著进步。(metr.github.io)

Progression of GPT Model Capabilities: Increasing Task Duration

💡 4. 开发者指南:GPT-5 API

OpenAI 发布了 GPT-5 的开发者指南,介绍了新模型的 API 接口和功能特性。GPT-5 开发者指南(OpenAI)

  • 新增了 verbosity 参数(值:low、medium、high),用于控制回答的简洁程度(如下例子)。

Different setting in verbosity

  • 引入了 reasoning_effort 参数,支持四种推理级别:minimal、low、medium、high。 例如下图,在相对简单的长背景信息检索任务中,提升推理能力(low以上级别)带来的增益有限,但在视觉推理基准测试CharXiv Reasoning⁠中却能提升几个百分点。

Impact of reasoning effort on benchmarks

  • 新增了自定义工具(custom tools)类型,允许开发者使用纯文本调用工具,而非 JSON 格式。之前,开发人员自定义工具设计的接口要求必须采用 JSON 格式调用。然而,要输出有效的 JSON,模型必须完美地转义所有引号、反斜杠、换行符和其他控制字符。尽管模型经过充分训练能够输出 JSON 格式,但当输入内容较长时(例如数百行代码或一份 5 页报告),其出错概率会显著上升。借助自定义工具,GPT‑5 可以将工具输入以纯文本形式编写,无需对所有需要转义的字符进行转义处理。在 SWE-bench 中,使用自定义工具而非 JSON 工具进行验证时,GPT‑5 的得分与之前大致相同。(OpenAI)


🧠 5. GPT-5 官方介绍页面

OpenAI 的官方介绍页面提供了 GPT-5 的概述,包括其主要特性和应用场景(OpenAI)。

  • GPT-5 是 OpenAI 迄今为止最智能、最快速、最有用的模型,具备专家级的思维能力。

Intelligence


  • 支持多模态输入(文本、图像、视频、音频),在健康、编程、创作等领域表现出色(如下图)。

Multimodal

Coding

Long Context

🧾 总结

GPT-5 被广泛认为是 OpenAI 在人工智能领域的重要进展,尤其在编码、推理和健康领域表现出色。然而,在写作质量和通用人工智能的实现方面,仍存在提升空间。OpenAI 对安全性的重视也为其在实际应用中的可靠性提供了保障。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值