【人工智能】OpenAI发布o3：超越前代1000倍，代码能力跻身全球前200，AGI迈出关键一步？

本文链接：https://blog.youkuaiyun.com/2401_89113983/article/details/144661585

引言：
就在2024年的最后时刻，OpenAI再一次震撼了整个AI领域！继三个月前发布o1后，o3的登场不仅刷新了大家对人工智能的认知，更在数学、代码、软件工程等领域实现了前所未有的突破。成本虽高达o1的1000倍，但其在性能、通用性上的提升，让它成为了当前推理模型中的王者！今天，我就带大家一起深入解析这款模型的亮点、技术创新以及它在AGI（通用人工智能）领域的潜在意义。

01 OpenAI的“压轴大招”：o3来了！

为什么o3值得关注？
OpenAI一贯以“跳跃式创新”著称，而这次的o3不仅跳过了o2，直接以升级版出场，更带来了前所未有的能力突破。从数学竞赛到代码生成，再到博士级别的科学问答，o3的表现都远远超越了前代模型o1。而更令人惊讶的是，它的迭代速度从未放慢脚步——o1发布仅仅过去三个月，o3就已问世！

💡 有趣小插曲： OpenAI的负责人奥特曼还打趣表示，“跳过o2，是为了延续我们‘起名特别差’的传统。”

在这里插入图片描述

o3性能如何？
在一系列基准测试中，o3展现出了压倒性的优势：

数学领域：
- 在AIME 2024数学竞赛中，o3以96.7%的准确率刷新记录，比o1提高了13.4%。
- 在高难度的Frontier Math测试中，其准确率高达25.2%，领先其他模型一大截。值得一提的是，数学家陶哲轩曾认为AI短期内难以突破此项测试，如今这一说法已被o3推翻。
代码领域：
- 在Codeforces编程测试中，o3的Elo评分达到2727，跻身国际编程顶尖200人水平，甚至超过了OpenAI研究高级副总裁。
- 在软件工程基准SWE-Bench中，其代码性能从o1的48.9%跃升至71.7%，一次性提升了22.8%。

在这里插入图片描述

从这些数据来看，o3的表现已经超越了许多顶尖的人类开发者。😲

02 o3-mini：高性价比的AI新选择

除了o3主力模型之外，OpenAI还推出了“小而强”的o3-mini。这款模型以其低成本、高效率的特性成为开发者们关注的焦点。

o3-mini的亮点有哪些？

三种“思考模式”自适应：
o3-mini可以根据任务的难易度，切换低强度、中强度和高强度三种推理模式。例如：简单任务可以快速完成，而复杂问题则会进入深度推理模式。
性能与速度兼备：
- 代码能力： 在Codeforces测试中，o3-mini（medium模式）已超越o1的性能。
- 数学能力： 在AIME 2024测试中，o3-mini（high模式）的准确率接近o3主力模型。
- 延迟表现： o3-mini在低强度推理下的响应时间低于1秒，与GPT-4的即时响应相媲美。
超高性价比：
- o3-mini的运行成本仅为o1的1/10，成为开发者节省预算的理想工具。
- API功能全面，支持函数调用、结构化输出等，兼具便捷性和实用性。