o3-mini发布!奥特曼:在开源上OpenAI一直站在历史错误的一边

 Datawhale分享 

OpenAI:o3,编辑:Datawhale

OpenAI o3-mini 官宣发布!

此次 o3-mini 包含 low、medium 和 high 三个版本。

edb7c89d829dc4b5a76edcc301ba788e.png

OpenAI 表示,今天发布的 o3-mini 是其推理模型系列中最新、最具成本效益的模型,已上线 ChatGPT 和 API 。

目前,ChatGPT 免费版用户可以通过选择「Search+Reason」来免费试用 o3-mini,具体用户权限如下:

3cbca6c2217ae662af5121289406b9a9.png

这是 OpenAI 首次向 ChatGPT 的免费用户提供推理模型。

430c148b26eedc8d18ef8875fcbc94d1.png

同时,o3-mini 的价格这次算是彻底给打下来了——比满血版o1便宜了92.7%,附上和 DeepSeek- R1 的价格对比。

46db73ef850b29b16b86416c1a16fb12.png

不过 o3-mini 目前还不支持视觉功能,开发者仍然需要使用 OpenAI o1 进行视觉推理任务。

o3-mini 发布后,OpenAI 团队公开答疑

o3-mini 发布后,OpenAI CEO Sam Altman 带领首席研究员 Mark Chen、首席产品官 Kevin Weil、工程副总裁 Srinivas Narayanan、API 研究主管 Michelle Pokrass,和 o3-mini 团队研究主管 Hongyu Ren,一起参与了 Reddit AMA 讨论会。


804b218a6721cc222f74555e2a3fc1e2.png

问题1:我们能看到所有的思维 tokens 吗?

回答(Sam Altman):是的,我们将很快展示一个更有帮助和详细的版本。感谢 R1 提醒我们。

推理模型使用了「将任务分解成更小步骤的思维链」的推理方法。

OpenAI 的 o1 模型和 o3 模型没有向用户显示任何中间的思考步骤,而是只是显示最终的答案。

DeepSeek 的 R1 模型向用户展示了每个步骤。

问题2:你们会考虑发布一些模型权重和发表一些研究吗?

回答(Sam Altman):是的,我们正在讨论。我个人认为我们过去在开源方面一直站在历史错误的一边,需要想出一种不同的开源策略。不过不是所有 OpenAI 的人都同意这个观点,这也不是我们目前优先级最高的事项。

问题3:完整版 o3 什么时候发布?

回答(Sam Altman):我估计超过几周,少于几个月。

问题4:语音模式会更新吗?这是 GPT-5o 的一个重点吗?GPT-5o 的大致时间表是什么?

回答(Sam Altman):语音模式更新即将到来!我想我们会直接叫它 GPT-5 而不是 GPT-5o。目前还没有时间表。

问题5:Stargate 的成功对 OpenAI 的未来有多重要?

回答(Kevin Weil):非常重要。我们看到的一切都表明,计算能力越多,我们就能建立更好的模型,并制造更有价值的产品。我们现在同时在两个维度上扩展模型——更大的预训练和更多的强化学习/strawberry 训练,这两者都需要计算资源。为数亿用户提供服务,并且随着我们转向更多为您持续工作的智能产品,这些也都需要计算资源。因此可以将 Stargate 视为我们的工厂,将算力/GPU 转化为令人惊叹的产品。

o3-mini 官方性能报告

最后,附上 o3-mini 的性能报告(此处由机器之心编译):

快速、强大且针对 STEM 推理优化

与其前身 OpenAI o1 类似,OpenAI o3-mini 针对 STEM 推理进行了优化。o3-mini-medium 在数学、编程和科学领域的表现与 o1 相当,同时响应速度更快。专家测试人员的评估显示,o3-mini 产生的答案比 o1-mini 更准确、更清晰,推理能力更强。测试人员在 56% 的情况下更偏好 o3-mini 的响应,并观察到 o3-mini 在困难的现实问题上重大错误减少了 39%。o3-mini-medium 在一些最具挑战性的推理和智能评估(包括 AIME 和 GPQA)上与 o1 的表现相当。

竞赛数学(AIME 2024):

634be09fb5df8e4dd7088a4174cdc5fb.png

竞赛数学:o3-mini-low 与 o1-mini 的表现相当。o3-mini-medium 达到与 o1 相当的表现。o3-mini-high 超过了 o1-mini 和  o1,上图中灰色阴影区域为 64 个样本的多数投票(共识)。

博士级科学问题(GPQA Diamond):

9073eedeb54877e414d7b161f524ea5b.png

博士极科学问题:o3-mini-low 的表现优于 o1-mini。o3-mini-high  的表现与 o1 相当,在博士级生物学、化学和物理问题上都显示出显著进步。

研究级数学(FrontierMath):

665c317ce52a92158bebd05fc5af6017.png

研究级数学:o3-mini-high 在 FrontierMath 上的表现优于其前代产品。使用 Python 工具时,o3-mini-high 能够在首次尝试时解决超过 32% 的问题,包括超过 28% 的具有挑战性的(T3)问题。

竞赛编程(Codeforces):

864480afe1f6b9689ad84b2857c3c14d.png

在 Codeforces 编程中, o3-mini 随着推理努力级别的提高获得了越来越高的 Elo 分数,均优于 o1-mini。o3-mini-medium 达到了与 o1 相当的表现。

软件工程(SWE-bench Verified):

27da9950827be8e61bb86fa6433a00e0.png

软件工程:o3-mini 是 OpenAI 发布的在 SWEbench-verified 上表现最好的模型。o3-mini-high 使用开源 Agentless 框架可达到 39% 的准确率,使用内部工具可达到 61% 的准确率。

LiveBench 编码:

9fa1ff1a4f215b56fa6e9c079e6ef54f.png

LiveBench 编码:即便是 o3-mini-medium 也超过了 o1-high,突显了其在编码任务中的效率。o3-mini-high 进一步扩大了领先优势,在关键指标上取得了显著更强的表现。

普通知识问题:

d3cc2899aa702816bf8566f20050aad7.png

普通知识问题:o3-mini 在各个一般性知识领域的评估中都优于 o1-mini。

人类偏好评估:

c857d135f685ccdd5463066e471939a5.png

人类偏好评估:外部专家测试人员的评估显示, o3-mini 产生的答案比 o1-mini 更准确、更清晰,推理能力更强,特别是在 STEM 领域。测试人员在 56% 的情况下更偏好 o3-mini 的响应,并观察到 o3-mini 在困难的现实问题上重大错误减少了 39%。

模型速度和性能

o3-mini 在保持与 OpenAI o1 相当的智能水平的同时,提供了更快的性能和更高的效率。除了上述 STEM 评估外,o3-mini-medium 的其他数学和事实性评估中也展现出优越的结果。在 A/B 测试中,o3-mini 的响应速度比 o1-mini 快 24%,平均响应时间为 7.7 秒,而 o1-mini 为 10.16 秒。

b59530ccac3f81eca6751a62f583d789.png

延迟:o3-mini 的首个 token 生成时间平均比 o1-mini 快 2500 毫秒。

安全

OpenAI 教导 o3-mini 安全响应的主要技术之一是审慎对齐(deliberative alignment),这种对齐方式训练模型在回答用户提示之前,先对人工编写的安全规范进行充分的思考和推理。与 OpenAI o1 类似,研究人员发现 o3-mini 在具有挑战性的安全性和越狱评估上显著超越了 GPT-4o。在部署之前,OpenAI 使用了与 o1 相同的准备方法、外部红队测试和安全性评估来仔细评估 o3-mini 的安全风险。

违规内容评估结果

41cea697cb56599c7503ac0651dd6058.png

越狱评估结果

78eb27f39837fe571b101cca6f7c5dd2.png

未来展望

OpenAI o3-mini 的发布标志着 OpenAI 在推进高性价比智能方面又迈出了一步。通过优化 STEM 领域的推理能力,同时保持低成本,OpenAI 正在使高质量 AI 变得更加容易获取。该模型延续了其降低智能成本的记录 —— 自 GPT-4 推出以来,每个 token 的定价降低了 95%—— 同时保持顶级推理能力。随着 AI 应用的扩展,OpenAI 仍然致力于在前沿领域引领,构建即使在大规模部署和使用的情况下,也能保持智能、效率与安全平衡的模型。

参考资料:

1.https://www.reddit.com/r/OpenAI/comments/1ieonxv/ama_with_openais_sam_altman_mark_chen_kevin_weil/

2.https://openai.com/index/openai-o3-mini/

3.https://mp.weixin.qq.com/s/PC6DbfxFlrTm1ZxaULLY6w

4.https://mp.weixin.qq.com/s/N0ElAF0kXQVcweOuDtohVg

34214d9a9749540bf95d9a9fabd1e79c.png

内容概要:本书《Deep Reinforcement Learning with Guaranteed Performance》探讨了基于李雅普诺夫方法的深度强化学习及其在非线性系统最优控制中的应用。书中提出了一种近似最优自适应控制方法,结合泰勒展开、神经网络、估计器设计及滑模控制思想,解决了不同场景下的跟踪控制问题。该方法不仅保证了性能指标的渐近收敛,还确保了跟踪误差的渐近收敛至零。此外,书中还涉及了执行器饱和、冗余解析等问题,并提出了新的冗余解析方法,验证了所提方法的有效性和优越性。 适合人群:研究生及以上学历的研究人员,特别是从事自适应/最优控制、机器人学和动态神经网络领域的学术界和工业界研究人员。 使用场景及目标:①研究非线性系统的最优控制问题,特别是在存在输入约束和系统动力学的情况下;②解决带有参数不确定性的线性和非线性系统的跟踪控制问题;③探索基于李雅普诺夫方法的深度强化学习在非线性系统控制中的应用;④设计和验证针对冗余机械臂的新型冗余解析方法。 其他说明:本书分为七章,每章内容相对独立,便于读者理解。书中不仅提供了理论分析,还通过实际应用(如欠驱动船舶、冗余机械臂)验证了所提方法的有效性。此外,作者鼓励读者通过仿真和实验进一步验证书中提出的理论和技术。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值