GPT-5 发布,Sam Altman:像和博士级别专家对话,编程/写作/健康三大场景重点升级

「GPT-3 感觉像是在和一位高中生对话,GPT-4 像是在和一位大学生交流,而 GPT-5 则是在和博士级别的专家对话」,在刚刚结束的发布会上,Sam Altman 在开场发言中对 GPT-5 给予了高度评价——GPT-5 是「全球在编程和写作方面最强的模型」。

构建统一系统

GPT-5 作为一个统一系统,包含一个智能高效的模型用以回答大多数问题(GPT-5-main),一个用于解决更复杂问题的深入推理模型(GPT-5-thinking),以及一个实时 router,可根据对话类型、问题复杂度、所需工具以及用户的明确意图快速决定使用哪个模型。 router 会持续通过真实信号进行训练,包括用户在模型之间切换的行为、对回答的偏好比例以及回答的正确性评估,从而不断优化。

根据其公开的官方文档显示,包括 gpt-5-thinking 、 gpt-5-thinking-mini 和 gpt-5-thinking-nano 在内的推理模型是通过强化学习进行训练的,以提升其推理能力。这些模型在回答问题前会进行「思考」,并在响应用户之前生成一整段内部思维链。通过训练,这些模型学会了优化思考过程、尝试不同策略并识别自身错误。

根据 OpenAI 的评测,在包括视觉推理、智能体编码以及研究生级别的科学问题求解等能力上,GPT‑5(开启推理模式)相比 OpenAI o3 表现更优,且输出的 token 数量减少了 50% 到 80% 。

同时,在评估代码能力的 Aider polyglot 测试中,GPT‑5 以 88% 的得分刷新纪录,其错误率较 o3 降低了三分之二。

此外,GPT-5 还在多个领域刷新了当前 SOTA,例如,在 AIME 2025 测试中取得 94.6% 的得分,在真实世界编码任务 SWE-bench Verified 上的得分为 74.9%,在 MMMU 得分为 84.2% 。在 GPT‑5 pro 的增强推理能力支持下,该模型还在 GPQA(通用推理问答)任务中取得了 88.4% 的成绩,同样达到了当前的 SOTA 水平。

重点提升三大场景:写作、编程和健康咨询

据悉,OpenAI 此次在 ChatGPT 最常见的三大应用场景——写作、编程和健康领域,进一步提升了 GPT-5 的性能。

OpenAI 提出,GPT‑5 是其迄今为止最强大的编程模型,其在复杂前端生成和大型代码库调试方面实现了显著提升——只需一个提示词,就能生成美观且响应迅速的网站、应用和游戏,展现出极高的审美敏感度。同时,GPT‑5 在深度分析代码库方面表现出色,能够精准解答关于代码模块运作机制及相互协作的问题。

除编程外,GPT‑5 在各类 Agent 任务中的表现也十分突出,其在指令遵循(在 Scale MultiChallenge 上的得分达到 69.6%)和工具调用(在 τ(2) -bench telecom 上的得分达到 96.7%)的基准测试中均创下了新纪录。

在 LongFact 和 FactScore 基准测试中,GPT‑5 的事实错误率比 o3 低约 80% 。这使得 GPT‑5 尤其适用于正确性要求高的 Agent 任务场景,特别是在代码生成、数据处理和决策支持等关键领域。

在创意写作方面,GPT-5 能够创作出具有文学深度与节奏感、引人共鸣的文案,其在处理结构上存在歧义的写作任务时更加可靠,比如保持无韵抑扬格的连贯性,能够在尊重文体形式的同时实现清晰有力的表达,从而在起草润色报告、邮件、备忘录等场景下提供更真实的写作。

值得一提的是,为调控 GPT‑5 回答的默认长度,OpenAI 还新增了 Verbosity API 参数,该参数支持 low 、 medium 、 high 三档可选值。如果显式指令与冗余参数发生冲突,则显式指令优先。例如,如果用户让 GPT‑5「写一篇包含五段文字的文章」,则该模型的回复始终应包含五段内容。

在健康相关的问题上,GPT-5 在 HealthBench 基准测试中的得分创历史新高,达到 46.2%,其能够主动识别潜在健康问题,并根据用户的背景知识和地理位置提供精准建议。

最近,OpenAI 动作频频,前脚刚通过 gpt-oss 抢占了开源领域的新 SOTA 席位,如今又发布了万众期待的 GPT-5,多项产品齐发随彰显了其技术底蕴,但模型的性能、安全性等方面究竟表现如何,不妨「让子弹飞一会」,静候市场检验。

参考资料:

1.https://www.theverge.com/openai/748017/gpt-5-chatgpt-openai-release

2.https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf

编号 文件名称 cwts-specs-001 IMT-DS FDD(WCDMA)系统无线接口物理层技术规范:名语术语 cwts-specs-002 IMT-DS FDD(WCDMA)系统无线接口物理层技术规范:概述 cwts-specs-003 IMT-DS FDD(WCDMA)系统无线接口物理层技术规范:物理信道和传输信道到物理信道的映射 cwts-specs-004 IMT-DS FDD(WCDMA)系统无线接口物理层技术规范:信道编码与复用 cwts-specs-005 IMT-DS FDD(WCDMA)系统无线接口物理层技术规范:扩频与调制 cwts-specs-006 IMT-DS FDD(WCDMA)系统无线接口物理层技术规范:物理层过程 cwts-specs-007 IMT-DS FDD(WCDMA)系统无线接口物理层技术规范:物理层测量 cwts-specs-008 IMT-DS FDD(WCDMA)系统无线接口层2技术规范:物理层向上层提供的服务 cwts-specs-009 IMT-DS FDD(WCDMA)系统无线接口层2技术规范:MAC协议 cwts-specs-010 IMT-DS FDD(WCDMA)系统无线接口层2技术规范:RLC协议 cwts-specs-011 IMT-DS FDD(WCDMA)系统无线接口层2技术规范:PDCP协议 cwts-specs-012 IMT-DS FDD(WCDMA)系统无线接口层2技术规范:BMC协议 cwts-specs-013 IMT-DS FDD(WCDMA)系统无线接口层3技术规范:RRC协议 cwts-specs-014 IMT-DS FDD(WCDMA)系统Iu接口技术规范:概述 cwts-specs-015 IMT-DS FDD(WCDMA)系统Iu接口技术规范:层1技术要求 cwts-specs-016 IMT-DS FDD(WCDMA)系统Iu接口技术规范:信令传输 cwts-specs-017 IMT-DS FDD(WCDMA)系统Iu接口技术规范:RANAP信令 cwts-specs-018 IMT-DS FDD(WCDMA)系统Iu接口技术规范:数据传输和传输信令 cwts-specs-019 IMT-DS FDD(WCDMA)系统Iu接口技术规范:用户平面协议 cwts-specs-020 IMT-DS FDD(WCDMA)系统Iub接口技术规范:概述 cwts-specs-021 IMT-DS FDD(WCDMA)系统Iub接口技术规范:层1技术要求 cwts-specs-022 IMT-DS FDD(WCDMA)系统Iub接口技术规范:信令传输 cwts-specs-023 IMT-DS FDD(WCDMA)系统Iub接口技术规范:NBAP信令 cwts-specs-024 IMT-DS FDD(WCDMA)系统Iub接口技术规范:用于CCH数据流的数据传输和传输信令 cwts-specs-025 IMT-DS FDD(WCDMA)系统Iub接口技术规范:用于CCH数据流的用户平面协议 cwts-specs-026 IMT-DS FDD(WCDMA)系统Iur接口技术规范:概述 cwts-specs-027 IMT-DS FDD(WCDMA)系统Iur接口技术规范:层1技术要求 cwts-specs-028 IMT-DS FDD(WCDMA)系统Iur接口技术规范:信令传输 cwts-specs-029 IMT-DS FDD(WCDMA)系统Iur接口技术规范:RNSAP信令 cwts-specs-030 IMT-DS FDD(WCDMA)系统Iur接口技术规范:用于CCH数据流的数据传输和传输信令 cwts-specs-031 IMT-DS FDD(WCDMA)系统Iur接口技术规范:用于CCH数据流的用户平面协议 cwts-specs-032 IMT-DS FDD(WCDMA)系统Iub/Iur接口技术规范:用于DCH数据流的数据传输和传输信令 cwts-specs-033 IMT-DS FDD(WCDMA)系统Iub/Iur接口技术规范:用于DCH数据流的用户平面协议 cwts-specs-034 TD-SCDMA系统无线接口物理层技术规范 cwts-specs-035 TD-SCDMA系统无线接口层2技术规范 cwts-specs-036 TD-SCDMA系统无线接口层3-RRC技术规范 cwts-specs-037 TD-SCDMA系统Iu接口技术规范 cwts-specs-038 TD-SCDMA系统Iub接口技术规范 cwts-specs-039 TD-SCDMA系统Iur接口技术规范 cwts-specs-040 TD-SCDMA系统基站设备无线收发特性技术规范 cwts-specs-041 TD-SCDMA系统用户终端设备无线收发特性技术规范 CWTS发布的研究报告列表 cwts-reports-001 IMT-DS FDD(WCDMA)系统连接模式下的层间过程(25.303)标准研究报告 cwts-reports-002 IMT-DS FDD(WCDMA)系统空闲模式下UE的流程和连接模式下小区重选流程(25.304)标准研究报告 cwts-reports-003 IMT-DS FDD(WCDMA)系统无线资源管理RRM研究报告 cwts-reports-004 IMT-DS FDD(WCDMA)系统无线资源管理RRM研究报告 cwts-reports-005 IMT-DS FDD(WCDMA)系统UE无线接入能力研究报告
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值