OpenAI发布超强o1大模型,数学考试的AI冠军,编程高手,还会推理,能力超越人类博士...

毫无防备,昨天 OpenAI 突然发布新模型 o1,这是计划发布的一系列“推理”模型中的第一个。

OpenAI 称,o1 与 GPT-4o 的主要区别在于它会花更多时间思考,然后再做出响应。它们可以进行通用复杂推理并解决比此前科学、代码和数学模型能做到的更难的问题。

同它一起发布的还有一个叫 o1-mini 的模型,后者是一个更小、更便宜的版本。没错,传说中的草莓模型已经出现。

1323b9f9145261133e6ae5f472927f67.png

对于 OpenAI 来说,o1 是一个重大的进步,代表人工智能的一个全新水平。它虽然在编程、数学和科学方面表现出色,但在某些用例上性能会比 GPT-4o 差,而且尚不支持浏览、文件上传或语音模式。所以 OpenAI 将 o1 的这个版本称为“预览”,用来强调它的新生状态。

“鉴于此,我们将计数器重新设定为 1,并将这一系列命名为 OpenAI o1。”

o1 是 OpenAI 首个经过强化学习训练的模型,大规模强化学习算法教会模型如何在高效训练数据的过程中使用其“思维链”进行思考,以此增强模型的能力,类似于人类逐步处理问题的方式。

OpenAI 发现随着强化学习(训练时计算)和更多思考时间的增加(测试时计算),o1 的性能会不断提高。而且扩展这种方法的限制与 LLM 预训练的限制有很大不同,OpenAI 还将继续研究它们。

f86128703c17da0966c42f3b83d84ad9.png

为了突出相对于 GPT-4o 的推理性能改进,OpenAI 在一系列不同的人类考试和机器学习基准测试中测试了 o1。实验结果表明,在绝大多数推理任务中,o1 的表现明显优于 GPT-4o。

feace7ffe15f5b9498c274444d5e3704.png

o1 在具有挑战性的推理基准上比 GPT-4o 有了很大的改进。

fcfd38d5e23d0238052261b0bbefa922.png

o1 在广泛的基准测试上比 GPT-4o 有所改进

在众多需要复杂推理的基准测试中,o1 展现出了与人类专家相匹敌的性能。

在 2024 年 AIME 考试中,GPT-4o 平均只解决了 12% (1.8/15) 的问题,而 o1 在每个问题只有一个样本的情况下平均为 74% (11.1/15),在 64 个样本之间达成一致的情况下为 83% (12.5/15),在使用学习的评分函数对 1000 个样本重新排序时为 93% (13.9/15)。13.9 分可以跻身全美前 500 名,并且高于美国数学奥林匹克竞赛分数线。

就连 OpenAI 的首席研究官鲍勃·麦格鲁 (Bob McGrew)都说:“这个模型肯定比我更擅长解决数学考试,而我在大学时还辅修的数学。”

OpenAI 还在 GPQA Diamond 基准上评估了 o1,这是一个困难的智力基准,用于测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较,OpenAI 聘请了博士学位的专家来回答 GPQA Diamond 基准问题。实验表明:o1 的性能超过了人类专家,成为第一个在此基准测试中做到这一点的模型。

在模拟的编程竞赛 Codeforces 中,o1 更是在比赛中排名 89%。o1 的 Elo 评分高达 1807,超过了 93% 的人类竞争对手。

89f9e2c542582f1d3aecc91693b1f33f.png

也有工程师在 X 上发布自己用 o1 在 10 分钟内就开发好了一个 APP 应用的帖子。

d814d90d44280f5b2f6f75848c5b4f79.png

确实是强得可怕,但 OpenAI 的产品经理 Joanne Jang 也表示,o1 是第一个在困难任务上表现出色的模型,并且会越来越好,但她也提醒人们不要对当前的发布版本抱有过高的期望。当然用户们也期待后续 OpenAI 对该模型的优化。

有关未来,OpenAI 还会继续迭代更新,添加浏览、文件和图像上传以及其他功能,希望它对每个人都更有用。

参考文献:

1.https://www.theverge.com/

2.https://openai.com/index/learning-to-reason-with-llms/

3.https://mp.weixin.qq.com/s/sGcx90Q_uI8se-DKosj9dw

题图来源:https://openai.com/

重磅上市

cf6b6ea7626a1a72fe42ba3a2f99a2dd.png

《深度学习入门4:强化学习》

斋藤康毅 | 著

郑明智 | 译

深受读者喜爱的“鱼书”系列第四弹,深度学习入门经典,从零开始掌握强化学习。沿袭“鱼书”系列风格,提供实际代码,边实践边学习,无须依赖外部库,从零开始实现支撑强化学习的基础技术。

”鱼书“系列其他三本

fa34058f4c16b48fc64336dc91cb2719.png

《深度学习入门:基于Python的理论与实现》

斋藤康毅 | 著

陆宇杰 | 译

本书是深度学习真正意义上的入门书,深入浅出地剖析了深度学习的原理和相关技术。书中使用 Python3,尽量不依赖外部库或工具,从基本的数学知识出发,带领读者从零创建一个经典的深度学习网络,使读者在此过程中逐步理解深度学习。

ddffc5175fa883ff46ef34f35f3cffbf.jpeg

《深度学习入门2:自制框架》

[日]斋藤康毅 | 著

郑明智 | 译

深度学习鱼书姊妹篇,这套书做到了真正意义上的“入门”!书中没有使用内容不明的黑盒,而是从我们能理解的最基础的知识出发,一步一步地实现最先进的深度学习技术。

美国物理学家费曼说:“What I cannot create,I do not understand.” 只有创造一个东西,才算真正弄懂了一个问题。这本书手把手带你创建深度学习框架,直击现代深度学习框架本质!

e545169a08abca4b61f5972a745762b3.jpeg

《深度学习进阶:自然语言处理》

[日]斋藤康毅 | 著

陆宇杰 | 译

豆瓣评分 9.4 的畅销书《深度学习入门:基于Python的理论与实现》续作,带你快速直达自然语言处理领域!本书内容精炼,聚焦深度学习视角下的自然语言处理,延续前作的行文风格,采用通俗的语言和大量直观的示意图详细讲解,帮助读者加深对深度学习技术的理解,轻松入门自然语言处理。

一次性 get一整套 👇

大模型必读经典

623e039cb24d5124e272a3a1266dbbfd.jpeg

《ChatGPT:人类新纪元》

马占凯 | 著

“搜狗输入法之父”、美团光年 AGI 布道师马占凯新作。本书用生动浅显的语言,用鲜活的故事,讲述 ChatGPT 前世今生、AI 发展史,获得罗永浩、梁宁、戴雨森、王建硕、王玥等大咖倾情推荐。附赠中国 AGI 全景图、ChatGPT 全景图拉页,让你对 ChatGPT 及 AGI 相关产业的发展一目了然。

c42f262657ac56f4c52a9af42447983e.png

《这就是ChatGPT》

[美] 斯蒂芬·沃尔弗拉姆|著

WOLFRAM传媒汉化小组|译

OpenAI CEO,ChatGPT 之父山姆·阿尔特曼推荐,国内首部由世界顶级 AI 学者、科学和技术领域重要的革新者、“第一个真正实用的人工智能”搜索引擎 WolframAlpha 发明人斯蒂芬·沃尔弗拉姆对 ChatGPT 最本质的原理的解释的权威之作!

1e80dd4632e33b287dcfe46a31648cf3.png

《大模型应用开发极简入门:基于GPT-4和ChatGPT》 

[比] 奥利维耶·卡埃朗,[法] 玛丽–艾丽斯·布莱特 | 著

何文斯 | 译

大模型应用开发极简指南:了解 GPT-4 和 ChatGPT 的工作原理 2 小时上手开发,快速构建大模型应用并实践提示工程、模型微调、插件、LangChain 等,送配套代码。大模型一线创业者、应用技术专家联袂推荐:宝玉、张路宇、孙志岗、邓范鑫、梁宇鹏(@一乐)、罗云、宜博。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值