OpenAI发布最强推理模型o3,视觉推理背后的逻辑很简单

又是在凌晨,OpenAI 发布了 o 系列模型的最新成果 o3 和 o4-mini,这是他们迄今为止发布的最智能模型,也标志着 ChatGPT 能力的巨大飞跃。
在这里插入图片描述

这次新发布的推理模型能够像智能体一样使用并组合 ChatGPT 中的每一个工具 —— 这包括搜索互联网、用 Python 分析上传的文件和其他数据、深入推理视觉输入,甚至生成图像。
在这里插入图片描述
至关重要的是,这些模型经过训练,能够推理何时以及如何使用工具,以在正确输出格式下产生详细且深思熟虑的答案,通常在不到一分钟的时间内解决更复杂的问题。这使得它们能够更有效地应对多面性问题,迈向一个更具自主性的 ChatGPT,独立为你执行任务。
在这里插入图片描述
这是新模型的一些性能参数。
在这里插入图片描述
多模态基准测试(包括 MMMU 大学水平的视觉问答、MathVista 视觉数学推理和 CharXiv-Reasoning 论文图表推理):
在这里插入图片描述
编程基准测试(包括 SWE-Lancer: IC SWE Diamod Freelancer 编程任务和 SWE-Bench Verified 软件工程任务):
在这里插入图片描述
Aider Polyglot 代码编辑任务:
在这里插入图片描述
指令遵循和智能体工具使用任务(包括 Scale MultiChallenge 多轮指令遵循和 BrowerComp 智能体浏览):
在这里插入图片描述
Tau-bench 函数调用:
在这里插入图片描述
以下案例来自于卡神,原文链接如下:

https://mp.weixin.qq.com/s?__biz=MzIyMzA5NjEyMA==&mid=2647670512&idx=1&sn=b78a84a56ed19aa9c27a1d8294c0130e&scene=21#wechat_redirect

*o1和o1 pro我之前有个巨大的痛点,就是这玩意不能使用工具,联网、代码解释器啥的,一个都不行。
然后只支持识图,连PDF文件,都传不上去,太傻了。
而这一次,o3和o4-mini直接拉满,不仅支持了OpenAI的所有工具,甚至还有了一个超级牛逼的新特性。
视觉推理。
单听这个很难理解,我直接给你们,看两个例子。
第一个,是一个非常经典的游戏,就是看图猜地点,但是不是那种没啥难度的,城市题,说实话,有建筑,太好猜了。
我们直接进一个专门玩这个的网站,叫图寻,参加每日挑战。
我的第一题,就是这个。
*
对,就这么个东西,让你猜这是中国的哪,在右下角的地图上打标,离终点越近,分越高。
我直接把这个扔给了o3,我们来看看,他的思考过程。
在这里插入图片描述
非常离谱的,自己去看图,把图片放大,一点一点思考,这个地方不对,哎换个地方我再放大看看。
以前模型的思维链,只有文字,而这次,这是大模型第一次,真正的把图片,也融入到了推理中。
我们再回过头来看看,刚才那道猜地题,它给出的答案。
在这里插入图片描述
虽然没有那么肯定,但是也给出了答案,北京门头沟、房山,109国道,妙峰山那一段。
我们来揭晓答案。
在这里插入图片描述
可能有些人对这个地点不熟悉,这个地方,叫北京,门头沟,109国道,妙峰山。
那一刻,我真的有点起鸡皮疙瘩了。
因为你会发现,AI开始像人一样去看图、像人一样去思考了。

以前你说AI懂图,懂什么?懂像素?懂特征?是的,它会提特征、会分类、会打标签,但它并不看图思考。

它是一个图像识别器,但不是一个图像思考者。

而今天,o3,是第一次让模型学会了看图思考,学会了视觉推理。

这个变化,堪称范式级别的跃迁。

是不是效果很惊艳,但是真正从底层来看的话,技术原理并没有0-1的变革性创新,甚至不足以称之为范式级跃迁。
换个角度来看,o3更像一个智能体了,具备了工具使用能力,在推理的基础上去调用了图片截取、放大、解析的能力。
这或许也是以后通用大模型发展的趋势,在参数性能没有巨幅提升的背景下,逐步扩展模型能力,向上渗透,与智能体的边界也会越来越模糊。

其实真正0-1创新,还是那些通用大模型、多模态大模型、推理大模型、智能体、多智能体协调等。在MCP和A2A协议诞生之后,在Manus出现以后,未来几年的发展趋势已经确定,剩下的只是时间问题,大家共同去见证。

就比如说,不久之后肯定还会出视频推理,工具使用进化为大模型调用基础编辑器给自己写工具(类比于使用工具和创造工具的区别),视频生成也会进一步突破10s、20s、直到120分钟直出影片。

用一个比较幽默的评论结尾吧:

程序员第一天:这也太厉害了吧!第二天:N+1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值