刚刚,GPT-4.5问世!OpenAI迄今最大、最贵模型,API价格飞涨30倍,不拼推理拼情商

大家心心念念的 GPT-4.5 终于来了!

凌晨 4 点,OpenAI 开始了直播,奥特曼并没有现身。直播不到 15 分钟就匆匆结束了。

OpenAI 正式发布了其最大、最强的聊天模型 GPT‑4.5 研究预览版本。

奥特曼发推称,GPT‑4.5 让他第一次感觉像在与一个有思想的人在交谈,可以从模型那里得到真正好的建议。

OpenAI 表示,GPT-4.5 在扩展预训练和后训练方面向前迈出了一步。通过扩展无监督学习,GPT-4.5 提高了识别模式、建立联系和产生创造性见解的能力,而无需推理。这意味着,GPT-4.5 从一开始就不是一个推理模型。

OpenAI 的早期测试表明,与 GPT-4.5 的交互感觉更自然。它的知识库更广泛,更能遵循用户意图,而且「情商」更高,使得在提高写作、编程和解决实际问题等任务中非常有用。同时,GPT-4.5 还减少了幻觉出现。

Cognition 联合创始人兼 CEO Scott Wu 分享了使用 GPT-4.5 的体验,表示非常棒。在他们的智能体编码基准测试中,GPT-4.5 相较于 o1 和 4o 实现大幅改进。同时发现一个有趣的数据点:虽然 GPT-4.5 和 Claude 3.7 Sonnet 在整体基准测试中得分相似,但他们发现 GPT-4.5 在涉及架构和跨系统交互的任务上峰值更大,而 Claude 3.7 Sonnet 在原始编码和代码编辑上峰值更大。

image.png

image.png

图源:https://x.com/ScottWu46/status/1895209597084017073

从今天开始,ChatGPT Pro 用户可以在网页版、手机版和桌面版使用 GPT-4.5。下周将向 Plus 和 Team 用户开放,再下周向企业和 Edu 用户开放。

现在,GPT-4.5 只支持搜索、上传文件和图片和画布功能,还不支持语音模式、视频和屏幕共享等多模态功能。OpenAI 表示,未来会持续更新,让产品变得更容易使用。

基准测试结果

OpenAI 首先在 SimpleQA(评估模型的事实性回答能力)数据集上进行了测试,其中 GPT-4.5 的准确率最高,超越了前代 GPT-4o、o1 和 o3-mini,展现了 GPT-4.5 拥有惊人的世界知识。

image.png

同时,GPT-4.5 的幻觉率也最低。

image.png

OpenAI 其次测试了人类协作训练水平。

随着模型不断扩展并解决更复杂的问题,教会它们更好地理解人类的需求和意图变得越来越重要。对于 GPT-4.5,OpenAI 开发了全新的可扩展技术,可以使用来自较小模型的数据来训练更大、更强的模型。这些技术提高了 GPT-4.5 的可操纵性、对细微差别的理解和自然对话水平。

下图人类偏好衡量结果显示,测试人员更喜欢 GPT-4.5 查询而不是 GPT-4o。

image.png

OpenAI 表示,将对世界的深刻理解与更佳的协作相结合,可以使得模型在更适合人类协作的「热情直观对话」中自然地整合想法。GPT-4.5 能够更好地理解人类的意思,并以更细致入微的「情商」来解读微妙的暗示或隐含的期望。此外,GPT-4.5 还表现出了更强的审美直觉和创造力,它擅长帮助写作和设计。

比如「在考试失败后,正在经历一段艰难的时光」,GPT-4.5 能够给你更拟人的安慰「哎呀,听到这个消息我真的很遗憾。考试失败会让人感到很艰难和沮丧,但请记住,这只是一个瞬间 —— 并不反映你的身份或能力。想谈谈发生了什么,还是你只是需要分散注意力?无论如何,我都在这里。」。

image.png

不过,OpenAI 指出 GPT-4.5 在做出反应之前不会思考,这使得它的优势与 o1 等推理模型截然不同。因此,与 o1、o3-mini 相比,GPT-4.5 是一种更通用、天然更智能的模型。

OpenAI 相信推理将成为未来模型的核心能力,而两种扩展方法 —— 预训练和推理 —— 将相辅相成。随着 GPT-4.5 等模型通过预训练变得更加智能和知识渊博,它们将成为推理和使用工具的代理的更强大的基础。

从下图多个基准测试结果,我们可以明显看到:在 GPQA(科学)、AIME’24(数学)、SWE-Bench Verfied(编码)等数据集上,GPT-4.5 全面领先于 GPT-4o,但仍然逊色于 o3-mini,尤其是数学和真实编程能力。

数字代表最佳内部性能。

扩展无监督学习

OpenAI 通过扩展两种互补范式来提升 AI 能力:无监督学习和推理。

这两种范式代表了 AI 智能的两个轴向。

其中,扩展推理使模型在做出回应之前学会思考并产生思维链,从而能够解决复杂的 STEM(科学、技术、工程和数学)或逻辑问题。例如 OpenAI 的 o1 和 o3‑mini 模型就推动了这一范式的发展。

另一方面,无监督学习则提高了世界模型的准确性以及直觉能力。

GPT‑4.5 是通过扩大计算和数据规模以及架构和优化创新来扩大无监督学习的一个例子。其结果是一个知识面更广、对世界理解更深入的模型,从而在广泛的主题上减少了幻觉现象,提高了可靠性。

接下来,我们看看 GPT 在这几年当中范式的改变:

2018 年,当问 GPT-1「第一种语言是什么?」时,GPT-1 只能简单的重复问题,答案根本没有参考价值:

2019 年,GPT-2 能进行一些简短的回答:

image.png

GPT-3.5 的回答如下,但并不是最准确的答案:

image.png

GPT-4 显然比其他模型更聪明,但你会明显感觉到它想让你知道它有多聪明,只是在列出事实:

最后,我们看一下 GPT-4.5 的答案,可以看出 GPT-4.5 给出了一个很棒的回答。它清晰、简洁、连贯,而且还很有趣。

API 调用和价格

至于 API,所有付费用户现已可以选择聊天补全 API、助手 API 和批处理 API 来接入 GPT-4.5 模型,支持函数调用、结构化输出、流式传输和系统消息等主要功能,还支持图像输入。

测试显示,GPT-4.5 在写作辅助、沟通、学习、辅导和头脑风暴等需要高情商和创造力的应用场景特别有用。在多步骤编程和复杂任务自动化等方面也表现出色,看来 OpenAI 是持续押注智能体了。

GPT-4.5 体量很大,需要大量计算资源,所以 API 价格每 1M token 75 美元,比 GPT-4o 的 2.5 美元暴涨 30 倍。OpenAI 甚至在官方博客中表示:「因此,GPT-4.5 还无法完全替代 GPT-4o」

考虑到要在支持现有功能和开发未来的模型之间取得平衡,OpenAI 还在评估是否要长期在 API 中提供 GPT-4.5。

大家明显被 GPT‑4.5 的价格震惊到了,下面这张梗图说明了一切。

图源:https://x.com/airesearch12/status/1895215157623889991

OpenAI 已经放出了详细的 GPT-4.5 系统卡。

image.png

系统卡地址:https://cdn.openai.com/gpt-4-5-system-card.pdf

Scaling Law 还在生效

可能比我们期待得更久一些,曾是 OpenAI 和 Tesla AI 团队重要成员的 Andrej Karpathy 直接写了一篇「小作文」,表示期待 GPT-4.5 已经约两年了。

https://x.com/karpathy/status/1895213023238987854

「自从 GPT-4 发布以来,我一直渴望看到这种升级,因为它能从一个定性的角度来衡量扩大预训练计算规模所带来的进步(即大力出奇迹)。」

「每个版本号提升 0.5,大致对应预训练计算量增长了十倍。」Karpathy 回顾了 Scaling Law 从 GPT-1 到 GPT-4 逐渐生效的过程,虽然相比 GPT-3.5,GPT-4 的进步似乎有些微妙。

「一切似乎都只是在细微之处有所改进:措辞更具创意,对提示词的细微差别理解得更好,类比更合理,模型也更有趣,对罕见领域的知识和理解有所提升,幻觉现象减少了,整体感觉更好。这就像「水涨船高」,所有方面都提升了大约 20%。」

因此,带着这种预期,Karpathy 开始测试比 GPT-4 的预训练计算量增加了 10 倍的 GPT-4.5。在提前体验过 GPT4.5 时,他再次感受到了从 GPT-3.5 进化到 GPT-4 时那种震撼。

更令人兴奋的是,Karpathy 认为 GPT-4.5 依然展示了 Scaling Law 的独到之处,仅仅通过训练更大模型就能「免费」获得模型各方面能力的提升。

Karpathy 判断 OpenAI 接下来会基于 GPT-4.5 进一步通过强化学习进行训练,使其具备推理能力。「请注意,GPT-4.5 仅通过预训练、监督微调和 RLHF 进行了训练,因此它并不是一个推理模型。因此,在推理至关重要的场景中(如数学、编程等),GPT-4.5 的发布并没有推动模型能力的提升。」

Karpathy 更期望在非推理密集型任务(更多与情商相关,比如世界知识、创造力、类比能力、整体理解力、幽默感等等)中看到 GPT-4.5 的进步。为此,Karpathy 设计了 5 个好玩的提示词来测试。

大家如果感兴趣,可以去 Karpathy 评论区的轻量级模型竞技场上投票,看看 GPT-4.5 的情商是不是更精进了:

题目:创建一段 GPT-4.5 和 GPT-4 之间的对话,其中 GPT-4.5 以幽默和讽刺的方式嘲笑 GPT-4 的能力不足,GPT-4 则幽默地试图为自己辩护。

不过以「整顿」AI 圈出名的 Gary Marcus 并不看好 GPT -4.5,他表示 GPT-4.5 基本上是个无足轻重的研究。GPT-5 仍然是一个幻想。

更进一步的,Marcus 表示扩展数据和计算能力并不是一条好的物理定律,过去几年我们听到的关于 GPT-5 的那些夸大其词的说法:并不那么真实。

image.png

如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

优快云粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传优快云,朋友们如果需要可以扫描下方二维码&点击下方优快云官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉优快云大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。

在这里插入图片描述
在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
img

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)

在这里插入图片描述
👉学会后的收获:👈
基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习

优快云粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传优快云,朋友们如果需要可以扫描下方二维码&点击下方优快云官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉优快云大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值