OpenAI发布最强推理模型o3，视觉推理背后的逻辑很简单

本文链接：https://blog.youkuaiyun.com/u014715882/article/details/147423422

又是在凌晨，OpenAI 发布了 o 系列模型的最新成果 o3 和 o4-mini，这是他们迄今为止发布的最智能模型，也标志着 ChatGPT 能力的巨大飞跃。
在这里插入图片描述

这次新发布的推理模型能够像智能体一样使用并组合 ChatGPT 中的每一个工具 —— 这包括搜索互联网、用 Python 分析上传的文件和其他数据、深入推理视觉输入，甚至生成图像。
在这里插入图片描述
至关重要的是，这些模型经过训练，能够推理何时以及如何使用工具，以在正确输出格式下产生详细且深思熟虑的答案，通常在不到一分钟的时间内解决更复杂的问题。这使得它们能够更有效地应对多面性问题，迈向一个更具自主性的 ChatGPT，独立为你执行任务。
在这里插入图片描述
这是新模型的一些性能参数。

多模态基准测试（包括 MMMU 大学水平的视觉问答、MathVista 视觉数学推理和 CharXiv-Reasoning 论文图表推理）：

编程基准测试（包括 SWE-Lancer: IC SWE Diamod Freelancer 编程任务和 SWE-Bench Verified 软件工程任务）：
在这里插入图片描述
Aider Polyglot 代码编辑任务：

指令遵循和智能体工具使用任务（包括 Scale MultiChallenge 多轮指令遵循和 BrowerComp 智能体浏览）：

Tau-bench 函数调用：

以下案例来自于卡神，原文链接如下：

https://mp.weixin.qq.com/s?__biz=MzIyMzA5NjEyMA==&mid=2647670512&idx=1&sn=b78a84a56ed19aa9c27a1d8294c0130e&scene=21#wechat_redirect

* o1和o1 pro我之前有个巨大的痛点，就是这玩意不能使用工具，联网、代码解释器啥的，一个都不行。
然后只支持识图，连PDF文件，都传不上去，太傻了。
而这一次，o3和o4-mini直接拉满，不仅支持了OpenAI的所有工具，甚至还有了一个超级牛逼的新特性。
视觉推理。
单听这个很难理解，我直接给你们，看两个例子。
第一个，是一个非常经典的游戏，就是看图猜地点，但是不是那种没啥难度的，城市题，说实话，有建筑，太好猜了。
我们直接进一个专门玩这个的网站，叫图寻，参加每日挑战。
我的第一题，就是这个。
*
对，就这么个东西，让你猜这是中国的哪，在右下角的地图上打标，离终点越近，分越高。
我直接把这个扔给了o3，我们来看看，他的思考过程。
在这里插入图片描述
非常离谱的，自己去看图，把图片放大，一点一点思考，这个地方不对，哎换个地方我再放大看看。
以前模型的思维链，只有文字，而这次，这是大模型第一次，真正的把图片，也融入到了推理中。
我们再回过头来看看，刚才那道猜地题，它给出的答案。
在这里插入图片描述
虽然没有那么肯定，但是也给出了答案，北京门头沟、房山，109国道，妙峰山那一段。
我们来揭晓答案。

可能有些人对这个地点不熟悉，这个地方，叫北京，门头沟，109国道，妙峰山。
那一刻，我真的有点起鸡皮疙瘩了。
因为你会发现，AI开始像人一样去看图、像人一样去思考了。

以前你说AI懂图，懂什么？懂像素？懂特征？是的，它会提特征、会分类、会打标签，但它并不看图思考。

它是一个图像识别器，但不是一个图像思考者。

而今天，o3，是第一次让模型学会了看图思考，学会了视觉推理。

这个变化，堪称范式级别的跃迁。

是不是效果很惊艳，但是真正从底层来看的话，技术原理并没有0-1的变革性创新，甚至不足以称之为范式级跃迁。
换个角度来看，o3更像一个智能体了，具备了工具使用能力，在推理的基础上去调用了图片截取、放大、解析的能力。
这或许也是以后通用大模型发展的趋势，在参数性能没有巨幅提升的背景下，逐步扩展模型能力，向上渗透，与智能体的边界也会越来越模糊。

其实真正0-1创新，还是那些通用大模型、多模态大模型、推理大模型、智能体、多智能体协调等。在MCP和A2A协议诞生之后，在Manus出现以后，未来几年的发展趋势已经确定，剩下的只是时间问题，大家共同去见证。

就比如说，不久之后肯定还会出视频推理，工具使用进化为大模型调用基础编辑器给自己写工具（类比于使用工具和创造工具的区别），视频生成也会进一步突破10s、20s、直到120分钟直出影片。

用一个比较幽默的评论结尾吧：

程序员第一天：这也太厉害了吧！第二天：N+1