毫无防备,昨天 OpenAI 突然发布新模型 o1,这是计划发布的一系列“推理”模型中的第一个。
OpenAI 称,o1 与 GPT-4o 的主要区别在于它会花更多时间思考,然后再做出响应。它们可以进行通用复杂推理并解决比此前科学、代码和数学模型能做到的更难的问题。
同它一起发布的还有一个叫 o1-mini 的模型,后者是一个更小、更便宜的版本。没错,传说中的草莓模型已经出现。
对于 OpenAI 来说,o1 是一个重大的进步,代表人工智能的一个全新水平。它虽然在编程、数学和科学方面表现出色,但在某些用例上性能会比 GPT-4o 差,而且尚不支持浏览、文件上传或语音模式。所以 OpenAI 将 o1 的这个版本称为“预览”,用来强调它的新生状态。
“鉴于此,我们将计数器重新设定为 1,并将这一系列命名为 OpenAI o1。”
o1 是 OpenAI 首个经过强化学习训练的模型,大规模强化学习算法教会模型如何在高效训练数据的过程中使用其“思维链”进行思考,以此增强模型的能力,类似于人类逐步处理问题的方式。
OpenAI 发现随着强化学习(训练时计算)和更多思考时间的增加(测试时计算),o1 的性能会不断提高。而且扩展这种方法的限制与 LLM 预训练的限制有很大不同,OpenAI 还将继续研究它们。
为了突出相对于 GPT-4o 的推理性能改进,OpenAI 在一系列不同的人类考试和机器学习基准测试中测试了 o1。实验结果表明,在绝大多数推理任务中,o1 的表现明显优于 GPT-4o。
o1 在具有挑战性的推理基准上比 GPT-4o 有了很大的改进。
o1 在广泛的基准测试上比 GPT-4o 有所改进
在众多需要复杂推理的基准测试中,o1 展现出了与人类专家相匹敌的性能。
在 2024 年 AIME 考试中,GPT-4o 平均只解决了 12% (1.8/15) 的问题,而 o1 在每个问题只有一个样本的情况下平均为 74% (11.1/15),在 64 个样本之间达成一致的情况下为 83% (12.5/15),在使用学习的评分函数对 1000 个样本重新排序时为 93% (13.9/15)。13.9 分可以跻身全美前 500 名,并且高于美国数学奥林匹克竞赛分数线。
就连 OpenAI 的首席研究官鲍勃·麦格鲁 (Bob McGrew)都说:“这个模型肯定比我更擅长解决数学考试,而我在大学时还辅修的数学。”
OpenAI 还在 GPQA Diamond 基准上评估了 o1,这是一个困难的智力基准,用于测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较,OpenAI 聘请了博士学位的专家来回答 GPQA Diamond 基准问题。实验表明:o1 的性能超过了人类专家,成为第一个在此基准测试中做到这一点的模型。
在模拟的编程竞赛 Codeforces 中,o1 更是在比赛中排名 89%。o1 的 Elo 评分高达 1807,超过了 93% 的人类竞争对手。
也有工程师在 X 上发布自己用 o1 在 10 分钟内就开发好了一个 APP 应用的帖子。
确实是强得可怕,但 OpenAI 的产品经理 Joanne Jang 也表示,o1 是第一个在困难任务上表现出色的模型,并且会越来越好,但她也提醒人们不要对当前的发布版本抱有过高的期望。当然用户们也期待后续 OpenAI 对该模型的优化。
有关未来,OpenAI 还会继续迭代更新,添加浏览、文件和图像上传以及其他功能,希望它对每个人都更有用。
参考文献:
1.https://www.theverge.com/
2.https://openai.com/index/learning-to-reason-with-llms/
3.https://mp.weixin.qq.com/s/sGcx90Q_uI8se-DKosj9dw
题图来源:https://openai.com/
重磅上市
《深度学习入门4:强化学习》
斋藤康毅 | 著
郑明智 | 译
深受读者喜爱的“鱼书”系列第四弹,深度学习入门经典,从零开始掌握强化学习。沿袭“鱼书”系列风格,提供实际代码,边实践边学习,无须依赖外部库,从零开始实现支撑强化学习的基础技术。
”鱼书“系列其他三本
《深度学习入门:基于Python的理论与实现》
斋藤康毅 | 著
陆宇杰 | 译
本书是深度学习真正意义上的入门书,深入浅出地剖析了深度学习的原理和相关技术。书中使用 Python3,尽量不依赖外部库或工具,从基本的数学知识出发,带领读者从零创建一个经典的深度学习网络,使读者在此过程中逐步理解深度学习。
《深度学习入门2:自制框架》
[日]斋藤康毅 | 著
郑明智 | 译
深度学习鱼书姊妹篇,这套书做到了真正意义上的“入门”!书中没有使用内容不明的黑盒,而是从我们能理解的最基础的知识出发,一步一步地实现最先进的深度学习技术。
美国物理学家费曼说:“What I cannot create,I do not understand.” 只有创造一个东西,才算真正弄懂了一个问题。这本书手把手带你创建深度学习框架,直击现代深度学习框架本质!
《深度学习进阶:自然语言处理》
[日]斋藤康毅 | 著
陆宇杰 | 译
豆瓣评分 9.4 的畅销书《深度学习入门:基于Python的理论与实现》续作,带你快速直达自然语言处理领域!本书内容精炼,聚焦深度学习视角下的自然语言处理,延续前作的行文风格,采用通俗的语言和大量直观的示意图详细讲解,帮助读者加深对深度学习技术的理解,轻松入门自然语言处理。
一次性 get一整套 👇
大模型必读经典
《ChatGPT:人类新纪元》
马占凯 | 著
“搜狗输入法之父”、美团光年 AGI 布道师马占凯新作。本书用生动浅显的语言,用鲜活的故事,讲述 ChatGPT 前世今生、AI 发展史,获得罗永浩、梁宁、戴雨森、王建硕、王玥等大咖倾情推荐。附赠中国 AGI 全景图、ChatGPT 全景图拉页,让你对 ChatGPT 及 AGI 相关产业的发展一目了然。
《这就是ChatGPT》
[美] 斯蒂芬·沃尔弗拉姆|著
WOLFRAM传媒汉化小组|译
OpenAI CEO,ChatGPT 之父山姆·阿尔特曼推荐,国内首部由世界顶级 AI 学者、科学和技术领域重要的革新者、“第一个真正实用的人工智能”搜索引擎 WolframAlpha 发明人斯蒂芬·沃尔弗拉姆对 ChatGPT 最本质的原理的解释的权威之作!
《大模型应用开发极简入门:基于GPT-4和ChatGPT》
[比] 奥利维耶·卡埃朗,[法] 玛丽–艾丽斯·布莱特 | 著
何文斯 | 译
大模型应用开发极简指南:了解 GPT-4 和 ChatGPT 的工作原理 2 小时上手开发,快速构建大模型应用并实践提示工程、模型微调、插件、LangChain 等,送配套代码。大模型一线创业者、应用技术专家联袂推荐:宝玉、张路宇、孙志岗、邓范鑫、梁宇鹏(@一乐)、罗云、宜博。