OpenAI发布超强o1大模型，数学考试的AI冠军，编程高手，还会推理，能力超越人类博士...

turingbooks

于 2024-09-14 12:36:52 发布

阅读量284

点赞数

CC 4.0 BY-SA版权

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MjM5Njc0MjIwMA==&mid=2649821822&idx=1&sn=6f9a4f73ff0c7337a693ab577106a7db&chksm=bfead454c3240d3cd020a60a3dcf8350415dabd67acd3723b924fa3268987f2c0d7fcc0767f0&scene=126&sessionid=0

毫无防备，昨天 OpenAI 突然发布新模型 o1，这是计划发布的一系列“推理”模型中的第一个。

OpenAI 称，o1 与 GPT-4o 的主要区别在于它会花更多时间思考，然后再做出响应。它们可以进行通用复杂推理并解决比此前科学、代码和数学模型能做到的更难的问题。

同它一起发布的还有一个叫 o1-mini 的模型，后者是一个更小、更便宜的版本。没错，传说中的草莓模型已经出现。

对于 OpenAI 来说，o1 是一个重大的进步，代表人工智能的一个全新水平。它虽然在编程、数学和科学方面表现出色，但在某些用例上性能会比 GPT-4o 差，而且尚不支持浏览、文件上传或语音模式。所以 OpenAI 将 o1 的这个版本称为“预览”，用来强调它的新生状态。

“鉴于此，我们将计数器重新设定为 1，并将这一系列命名为 OpenAI o1。”

o1 是 OpenAI 首个经过强化学习训练的模型，大规模强化学习算法教会模型如何在高效训练数据的过程中使用其“思维链”进行思考，以此增强模型的能力，类似于人类逐步处理问题的方式。

OpenAI 发现随着强化学习（训练时计算）和更多思考时间的增加（测试时计算），o1 的性能会不断提高。而且扩展这种方法的限制与 LLM 预训练的限制有很大不同，OpenAI 还将继续研究它们。

为了突出相对于 GPT-4o 的推理性能改进，OpenAI 在一系列不同的人类考试和机器学习基准测试中测试了 o1。实验结果表明，在绝大多数推理任务中，o1 的表现明显优于 GPT-4o。

o1 在具有挑战性的推理基准上比 GPT-4o 有了很大的改进。

o1 在广泛的基准测试上比 GPT-4o 有所改进

在众多需要复杂推理的基准测试中，o1 展现出了与人类专家相匹敌的性能。

在 2024 年 AIME 考试中，GPT-4o 平均只解决了 12% (1.8/15) 的问题，而 o1 在每个问题只有一个样本的情况下平均为 74% (11.1/15)，在 64 个样本之间达成一致的情况下为 83% (12.5/15)，在使用学习的评分函数对 1000 个样本重新排序时为 93% (13.9/15)。13.9 分可以跻身全美前 500 名，并且高于美国数学奥林匹克竞赛分数线。

就连 OpenAI 的首席研究官鲍勃·麦格鲁（Bob McGrew）都说：“这个模型肯定比我更擅长解决数学考试，而我在大学时还辅修的数学。”

OpenAI 还在 GPQA Diamond 基准上评估了 o1，这是一个困难的智力基准，用于测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较，OpenAI 聘请了博士学位的专家来回答 GPQA Diamond 基准问题。实验表明：o1 的性能超过了人类专家，成为第一个在此基准测试中做到这一点的模型。

在模拟的编程竞赛 Codeforces 中，o1 更是在比赛中排名 89%。o1 的 Elo 评分高达 1807，超过了 93% 的人类竞争对手。

也有工程师在 X 上发布自己用 o1 在 10 分钟内就开发好了一个 APP 应用的帖子。

确实是强得可怕，但 OpenAI 的产品经理 Joanne Jang 也表示，o1 是第一个在困难任务上表现出色的模型，并且会越来越好，但她也提醒人们不要对当前的发布版本抱有过高的期望。当然用户们也期待后续 OpenAI 对该模型的优化。

有关未来，OpenAI 还会继续迭代更新，添加浏览、文件和图像上传以及其他功能，希望它对每个人都更有用。

参考文献：

1.https://www.theverge.com/

2.https://openai.com/index/learning-to-reason-with-llms/

3.https://mp.weixin.qq.com/s/sGcx90Q_uI8se-DKosj9dw

题图来源：https://openai.com/

重磅上市

《深度学习入门4：强化学习》

斋藤康毅 | 著

郑明智 | 译

深受读者喜爱的“鱼书”系列第四弹，深度学习入门经典，从零开始掌握强化学习。沿袭“鱼书”系列风格，提供实际代码，边实践边学习，无须依赖外部库，从零开始实现支撑强化学习的基础技术。

”鱼书“系列其他三本

《深度学习入门：基于Python的理论与实现》

斋藤康毅 | 著

陆宇杰 | 译

本书是深度学习真正意义上的入门书，深入浅出地剖析了深度学习的原理和相关技术。书中使用 Python3，尽量不依赖外部库或工具，从基本的数学知识出发，带领读者从零创建一个经典的深度学习网络，使读者在此过程中逐步理解深度学习。

《深度学习入门2：自制框架》

[日]斋藤康毅 | 著

郑明智 | 译

深度学习鱼书姊妹篇，这套书做到了真正意义上的“入门”！书中没有使用内容不明的黑盒，而是从我们能理解的最基础的知识出发，一步一步地实现最先进的深度学习技术。

美国物理学家费曼说：“What I cannot create，I do not understand.” 只有创造一个东西，才算真正弄懂了一个问题。这本书手把手带你创建深度学习框架，直击现代深度学习框架本质！

《深度学习进阶：自然语言处理》

[日]斋藤康毅 | 著

陆宇杰 | 译

豆瓣评分 9.4 的畅销书《深度学习入门：基于Python的理论与实现》续作，带你快速直达自然语言处理领域！本书内容精炼，聚焦深度学习视角下的自然语言处理，延续前作的行文风格，采用通俗的语言和大量直观的示意图详细讲解，帮助读者加深对深度学习技术的理解，轻松入门自然语言处理。

一次性 get一整套 👇

大模型必读经典

《ChatGPT：人类新纪元》

马占凯 | 著

“搜狗输入法之父”、美团光年 AGI 布道师马占凯新作。本书用生动浅显的语言，用鲜活的故事，讲述 ChatGPT 前世今生、AI 发展史，获得罗永浩、梁宁、戴雨森、王建硕、王玥等大咖倾情推荐。附赠中国 AGI 全景图、ChatGPT 全景图拉页，让你对 ChatGPT 及 AGI 相关产业的发展一目了然。