OpenAI传说中的“草莓”终于正式上线!
不仅可以胜任更复杂的推理任务,在数学、代码和其他科学领域也能解决更难的问题。
OpenAI这次“无预警发布”震撼了科技圈,o1更是被CEO奥特曼称它为了一种新范式的开始。
发布之后,各路大神和网友都纷纷用各种问题测试OpenAI o1的表现:
还有人进行了花式考验,结果被o1强大的推理能力秀到了。
Q:你的回复中有几个字?
A1:这句话有七个字
A2:一共五个字
量子位也进行了一番实测,下面就一起来了解。
推理能力大进化,但还是难敌弱智吧
该说不说,o1虽然在推理能力上取得了很大进步,但面对充满心机的弱智吧问题,还是掉进了人类挖的陷阱。
当然了,对于正经问题,o1的表现还是很强的,首先看看逻辑推理能力。
思考这道题时,preview和mini分别用时21秒和14秒,不过从文本上看mini思考得反而更多。
其中还出现了一些西里尔字母乱入,不过对整体影响不大。
最终,二者也都给出了正确的答案——丙。
值得注意的是,mini(右)的解答当中还出现了修正的过程。
接下来看下o1在大学数理化题目上的表现。
首先是这道考研数学真题,涉及的知识点是曲面积分、高斯定理等内容:
还是分别看下preview和mini的思考,可以看到mini的思考过程大概是preview的简略版,当然速度也快了不少。
不过preview给的思考过程当中再次出现乱入,这次是泰语。
实际解答过程也是preview比mini更加详细,不过不知道为什么preview用了英文回答。
最后的计算结果化简方式也有所不同,但数值上是相等的,而且也做对了。
对比4o这边,先偷懒后作弊(调用了代码解释器),结果最后答案还是错的。
第二道数学题关于概率。
这道题preview依然是用英语进行了作答,步骤比mini更加详细,当然都是对的。
而4o的答案前面的过程倒是基本都对,但是最后一步的求解出现了问题,只给出了1这一个解,并且不是本题答案。
物理方面,这里选择了一道大学物理中的光学题:
preview(左)和mini都给出了正确解答,内容也基本一致。
化学的题目是一道物化题,主要涉及电化学等内容。
这里把AgCl/Ag的标准电极电势作为已知条件一同输入给模型。
Preview(左)和mini大致的解题思路还是差不多,在计算步骤上有指对运算先后的差别,当然最后的结果还是对的。
最后一项测试就不再做考试题了,而是看看模型编写代码的能力如何。
这里选择的题目难度非常高,真人的通过率只有14%。
以下是preview(左)和mini的解题思路:
从代码上看,两者核心逻辑相似,但在具体操作上略有区别。
两套代码均通过了测试,内存消耗也比较接近,而mini给出的代码运行时间更短(38毫秒)。
o1的编程能力除了用来解题,也可以快速构建出实用的应用程序。
知名AI配音工具ElevenLabs设计部门负责人Ammaar Reshi,就利用o1搭配Cursor Composer,用了不到10分钟的时间制作了一款iOS天气应用。
,时长00:54
小数比较还是不会?
测试发现,对于大模型难以答对的名场面——小数比大小,preview(左)和mini都答不对。
甚至preview在思考过程中明明已经提到过9.8比9.11大。
但同时preview在思考过程中表示,9.8和9.11有可能指的是日期,所以做不对也许另一原因。
针对这个问题,大神谢赛宁也晒出了他的测试结果,发现o1在思考过程中将9.8当成了重力常数,而9.11是一个“意义不明的数字”。
所以o1可能不是不会,而是把这个问题想复杂了。
为了进一步探究,我们把问题改得具体些,强调一下9.8和9.11都是数字,这下没有了歧义之后就能一次做对了。
可以看出,提示词的影响还是不小的。
由于o1在内部采用了一些类思维链过程,因此prompt的设计和普通版本也有所区别,OpenAI官方发布了一则提示:
- 提示词应简单且直接
- 避免在提示词中使用思维链
- 使用分隔符让promot更清晰
- 控制RAG内容的长度
回到我们的测试,面对其他几个大模型败北名场面,o1也有不小的进步。
比如在数字母的任务上就有所进化,即使是一串乱打的字母也能数对。
还有面对经典的**“反转诅咒”**(即知道A是B却不知道B是A)问题,也终于一次性答对了Mary Lee Pfeiffer(汤姆·克鲁斯的母亲)的儿子是谁。
One More Thing
关于这次发布的o1,除了各个方面的成绩之外,还有一些其他的发现。
比如前特斯拉自动驾驶负责人、两度进入OpenAI又两度离职的大神Andrej Karpathy发现,o1-mini在被要求证明黎曼猜想的时候出现了拒绝回答的情况,表示大模型“犯懒”依然是一个大问题。
还有网友说觉得mini的表现比preview好,想问下有没有人知道原因或者有啥看法。
这条消息也把奥特曼吸引了过来,回复了一句“Yes I have one”。
根据OpenAI内部员工Kevin Lu发布的一则推文来看,mini的性价比确实比preview更高。
根据这张图显示,preview版本论性能比不上尚未公布的满血o1,论经济性又比不上mini。
顺便提一句,preview版本存在消息数量限制,并且数量是按周进行重置的,几轮测试下来已经快要用尽了。
参考链接:
[1]https://x.com/rowancheung/status/1834300353619075494
[2]https://x.com/karpathy/status/1834374965942255835
[3]https://x.com/sama/status/1834381401380294685
[4]https://x.com/_kevinlu/status/1834278160038592633
如何学习AI大模型?
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费
】

一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型商业化落地方案
作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。