OpenAI正式宣布推出备受期待的AI模型——GPT-4.5,内部代号“Orion”

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

【本周AI新闻: GPT 4.5, Claude 3.7 前沿基础模型战意更酣】 https://www.bilibili.com/video/BV1FrXQYHE9E/

OpenAI周四正式宣布推出备受期待的AI模型——GPT-4.5,内部代号“Orion”。据悉,GPT-4.5是OpenAI迄今为止规模最大的一款模型,训练过程中投入的计算资源和数据量均超越该公司以往的所有版本。

不过,尽管体量庞大,OpenAI在其白皮书中表示,并不将GPT-4.5视为“前沿模型”。

对于订阅了ChatGPT Pro的用户(每月费用高达200美元),GPT-4.5将在ChatGPT平台上开放体验,作为“研究预览”的一部分。与此同时,OpenAI API的付费开发者同样可以立即使用这一新模型。至于普通ChatGPT用户,ChatGPT Plus和ChatGPT Team的订阅者预计将在下周获得使用权限,OpenAI方面向TechCrunch透露了这一消息。

AI行业早已屏息以待,期待着Orion的亮相,部分业内人士更是将其视为衡量传统AI训练方法可行性的风向标。据了解,GPT-4.5仍然采用了OpenAI一贯的关键技术,即在“无监督学习”的预训练阶段,大幅扩展计算能力和数据规模——这一策略曾被用于GPT-4、GPT-3、GPT-2乃至GPT-1的开发。

在此前的所有GPT迭代中,算力和数据的扩张均带来了跨领域的性能飞跃,包括数学、写作和编程等方面。OpenAI声称,GPT-4.5在规模上的提升,使其拥有“更深层次的世界知识”以及“更高的情感智商”。然而,行业观察人士也注意到,单纯依靠数据和计算量的扩展,似乎正在进入“收益递减”的瓶颈期。在多项AI基准测试中,GPT-4.5未能超越中国AI公司DeepSeek、Anthropic及OpenAI自身最新的“推理模型”。

价格高昂,成本成隐忧

值得注意的是,OpenAI坦言GPT-4.5的运行成本极其昂贵,甚至已经在评估是否长期提供API服务。开发者若要调用GPT-4.5的API,每百万输入token(大约75万字)需支付75美元,而每百万输出token的价格更是高达150美元。相比之下,GPT-4o的定价要亲民得多——每百万输入token仅需2.50美元,输出则是10美元。

尽管性能不俗,GPT-4.5并未被设计成GPT-4o的直接替代品。GPT-4.5支持文件上传、图像处理以及ChatGPT的画布工具,但目前仍然无法使用ChatGPT的“拟真双向语音模式”。

从测试数据来看,GPT-4.5的表现喜忧参半。在OpenAI的SimpleQA基准测试中,GPT-4.5在回答简单、事实性问题方面的准确率超过了GPT-4o以及OpenAI的推理模型o1和o3-mini。此外,GPT-4.5“幻觉”(胡编乱造事实)的频率低于大部分现有模型,理论上意味着它更不容易“一本正经地胡说八道”。

然而,在部分编程基准测试中,GPT-4.5的成绩并不出彩。例如,在SWE-Bench Verified测试中,其表现与GPT-4o和o3-mini相当,但落后于OpenAI的深度研究模型(deep research)以及Anthropic的Claude 3.7 Sonnet。而在SWE-Lancer测试中,尽管GPT-4.5超越了GPT-4o和o3-mini,但仍未能挑战deep research的领先地位。

在学术难题方面,如AIME(数学竞赛测试)和GPQA(广义知识推理测试),GPT-4.5并未达到DeepSeek R1、Claude 3.7 Sonnet等推理模型的水准。不过,在非推理模型中,GPT-4.5的表现仍然可圈可点,尤其在数学和科学相关问题上展现出一定优势。

此外,OpenAI声称,GPT-4.5在很多基准测试无法准确衡量的领域表现更优,例如理解人类意图的能力。相比其他模型,GPT-4.5的回应更加自然、更具温度,并且在创意写作和设计等任务上表现突出。在一次非正式测试中,OpenAI要求GPT-4.5、GPT-4o和o3-mini用SVG格式生成一只独角兽,结果只有GPT-4.5成功画出了一只像模像样的独角兽。

在另一项情境测试中,OpenAI让三款模型回应用户“考试失败后情绪低落”的求助信息。结果表明,GPT-4o和o3-mini的回答虽有帮助,但GPT-4.5的回应显然更加贴合社交语境,更具安慰效果。

预训练遇瓶颈,推理模型成趋势

OpenAI在博客中写道:“通过这次发布,我们希望能更全面地了解GPT-4.5的能力,因为学术基准测试未必能反映出它在实际应用中的真正价值。”

不过,GPT-4.5的局限性似乎也印证了业界此前的猜测——AI训练的“扩展法则”可能已经开始失效。OpenAI联合创始人、前首席科学家Ilya Sutskever曾在去年12月表示:“数据规模已经触顶,现有的预训练方法毫无疑问会终结。” 这一观点也与TechCrunch去年11月的一篇报道不谋而合,许多AI投资人、创业者和研究人员当时就对预训练路径的可持续性表示了担忧。

面对这一挑战,OpenAI等公司已逐步转向“推理模型”(reasoning models)。尽管推理模型的计算开销更大,处理速度较慢,但它们在复杂任务上的稳定性更强。通过让AI花费更多时间和计算资源去“思考”问题,业界普遍认为能显著提升AI的能力。

据悉,OpenAI计划在今年晚些时候发布GPT-5,并正式整合GPT系列与“o”推理模型系列。尽管GPT-4.5本身未能登顶AI基准测试,但它可能只是迈向更强大AI的一块垫脚石。毕竟,在AI竞赛日益激烈的今天,GPT-4.5或许并非终点,而只是一个新阶段的起点。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值