OpenAI正式宣布推出备受期待的AI模型——GPT-4.5，内部代号“Orion”

最新推荐文章于 2025-06-11 10:52:50 发布

新加坡内哥谈技术

最新推荐文章于 2025-06-11 10:52:50 发布

阅读量1.4k

点赞数 41

文章标签：人工智能自然语言处理语言模型深度学习学习 chatgpt

本文链接：https://blog.youkuaiyun.com/2301_79342058/article/details/145946274

版权

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

【本周AI新闻: GPT 4.5, Claude 3.7 前沿基础模型战意更酣】 https://www.bilibili.com/video/BV1FrXQYHE9E/

OpenAI周四正式宣布推出备受期待的AI模型——GPT-4.5，内部代号“Orion”。据悉，GPT-4.5是OpenAI迄今为止规模最大的一款模型，训练过程中投入的计算资源和数据量均超越该公司以往的所有版本。

不过，尽管体量庞大，OpenAI在其白皮书中表示，并不将GPT-4.5视为“前沿模型”。

对于订阅了ChatGPT Pro的用户（每月费用高达200美元），GPT-4.5将在ChatGPT平台上开放体验，作为“研究预览”的一部分。与此同时，OpenAI API的付费开发者同样可以立即使用这一新模型。至于普通ChatGPT用户，ChatGPT Plus和ChatGPT Team的订阅者预计将在下周获得使用权限，OpenAI方面向TechCrunch透露了这一消息。

AI行业早已屏息以待，期待着Orion的亮相，部分业内人士更是将其视为衡量传统AI训练方法可行性的风向标。据了解，GPT-4.5仍然采用了OpenAI一贯的关键技术，即在“无监督学习”的预训练阶段，大幅扩展计算能力和数据规模——这一策略曾被用于GPT-4、GPT-3、GPT-2乃至GPT-1的开发。

在此前的所有GPT迭代中，算力和数据的扩张均带来了跨领域的性能飞跃，包括数学、写作和编程等方面。OpenAI声称，GPT-4.5在规模上的提升，使其拥有“更深层次的世界知识”以及“更高的情感智商”。然而，行业观察人士也注意到，单纯依靠数据和计算量的扩展，似乎正在进入“收益递减”的瓶颈期。在多项AI基准测试中，GPT-4.5未能超越中国AI公司DeepSeek、Anthropic及OpenAI自身最新的“推理模型”。

价格高昂，成本成隐忧

值得注意的是，OpenAI坦言GPT-4.5的运行成本极其昂贵，甚至已经在评估是否长期提供API服务。开发者若要调用GPT-4.5的API，每百万输入token（大约75万字）需支付75美元，而每百万输出token的价格更是高达150美元。相比之下，GPT-4o的定价要亲民得多——每百万输入token仅需2.50美元，输出则是10美元。

尽管性能不俗，GPT-4.5并未被设计成GPT-4o的直接替代品。GPT-4.5支持文件上传、图像处理以及ChatGPT的画布工具，但目前仍然无法使用ChatGPT的“拟真双向语音模式”。

从测试数据来看，GPT-4.5的表现喜忧参半。在OpenAI的SimpleQA基准测试中，GPT-4.5在回答简单、事实性问题方面的准确率超过了GPT-4o以及OpenAI的推理模型o1和o3-mini。此外，GPT-4.5“幻觉”（胡编乱造事实）的频率低于大部分现有模型，理论上意味着它更不容易“一本正经地胡说八道”。

然而，在部分编程基准测试中，GPT-4.5的成绩并不出彩。例如，在SWE-Bench Verified测试中，其表现与GPT-4o和o3-mini相当，但落后于OpenAI的深度研究模型（deep research）以及Anthropic的Claude 3.7 Sonnet。而在SWE-Lancer测试中，尽管GPT-4.5超越了GPT-4o和o3-mini，但仍未能挑战deep research的领先地位。

在学术难题方面，如AIME（数学竞赛测试）和GPQA（广义知识推理测试），GPT-4.5并未达到DeepSeek R1、Claude 3.7 Sonnet等推理模型的水准。不过，在非推理模型中，GPT-4.5的表现仍然可圈可点，尤其在数学和科学相关问题上展现出一定优势。

此外，OpenAI声称，GPT-4.5在很多基准测试无法准确衡量的领域表现更优，例如理解人类意图的能力。相比其他模型，GPT-4.5的回应更加自然、更具温度，并且在创意写作和设计等任务上表现突出。在一次非正式测试中，OpenAI要求GPT-4.5、GPT-4o和o3-mini用SVG格式生成一只独角兽，结果只有GPT-4.5成功画出了一只像模像样的独角兽。

在另一项情境测试中，OpenAI让三款模型回应用户“考试失败后情绪低落”的求助信息。结果表明，GPT-4o和o3-mini的回答虽有帮助，但GPT-4.5的回应显然更加贴合社交语境，更具安慰效果。

预训练遇瓶颈，推理模型成趋势

OpenAI在博客中写道：“通过这次发布，我们希望能更全面地了解GPT-4.5的能力，因为学术基准测试未必能反映出它在实际应用中的真正价值。”

不过，GPT-4.5的局限性似乎也印证了业界此前的猜测——AI训练的“扩展法则”可能已经开始失效。OpenAI联合创始人、前首席科学家Ilya Sutskever曾在去年12月表示：“数据规模已经触顶，现有的预训练方法毫无疑问会终结。” 这一观点也与TechCrunch去年11月的一篇报道不谋而合，许多AI投资人、创业者和研究人员当时就对预训练路径的可持续性表示了担忧。

面对这一挑战，OpenAI等公司已逐步转向“推理模型”（reasoning models）。尽管推理模型的计算开销更大，处理速度较慢，但它们在复杂任务上的稳定性更强。通过让AI花费更多时间和计算资源去“思考”问题，业界普遍认为能显著提升AI的能力。

据悉，OpenAI计划在今年晚些时候发布GPT-5，并正式整合GPT系列与“o”推理模型系列。尽管GPT-4.5本身未能登顶AI基准测试，但它可能只是迈向更强大AI的一块垫脚石。毕竟，在AI竞赛日益激烈的今天，GPT-4.5或许并非终点，而只是一个新阶段的起点。