OpenAI发布最强推理模型o3,视觉推理背后的逻辑很简单

又是在凌晨,OpenAI 发布了 o 系列模型的最新成果 o3 和 o4-mini,这是他们迄今为止发布的最智能模型,也标志着 ChatGPT 能力的巨大飞跃。
在这里插入图片描述

这次新发布的推理模型能够像智能体一样使用并组合 ChatGPT 中的每一个工具 —— 这包括搜索互联网、用 Python 分析上传的文件和其他数据、深入推理视觉输入,甚至生成图像。
在这里插入图片描述
至关重要的是,这些模型经过训练,能够推理何时以及如何使用工具,以在正确输出格式下产生详细且深思熟虑的答案,通常在不到一分钟的时间内解决更复杂的问题。这使得它们能够更有效地应对多面性问题,迈向一个更具自主性的 ChatGPT,独立为你执行任务。
在这里插入图片描述
这是新模型的一些性能参数。
在这里插入图片描述
多模态基准测试(包括 MMMU 大学水平的视觉问答、MathVista 视觉数学推理和 CharXiv-Reasoning 论文图表推理):
在这里插入图片描述
编程基准测试(包括 SWE-Lancer: IC SWE Diamod Freelancer 编程任务和 SWE-Bench Verified 软件工程任务):
在这里插入图片描述
Aider Polyglot 代码编辑任务:
在这里插入图片描述
指令遵循和智能体工具使用任务(包括 Scale MultiChallenge 多轮指令遵循和 BrowerComp 智能体浏览):
在这里插入图片描述
Tau-bench 函数调用:
在这里插入图片描述
以下案例来自于卡神,原文链接如下:

https://mp.weixin.qq.com/s?__biz=MzIyMzA5NjEyMA==&mid=2647670512&idx=1&sn=b78a84a56ed19aa9c27a1d8294c0130e&scene=21#wechat_redirect

*o1和o1 pro我之前有个巨大的痛点,就是这玩意不能使用工具,联网、代码解释器啥的,一个都不行。
然后只支持识图,连PDF文件,都传不上去,太傻了。
而这一次,o3和o4-mini直接拉满,不仅支持了OpenAI的所有工具,甚至还有了一个超级牛逼的新特性。
视觉推理。
单听这个很难理解,我直接给你们,看两个例子。
第一个,是一个非常经典的游戏,就是看图猜地点,但是不是那种没啥难度的,城市题,说实话,有建筑,太好猜了。
我们直接进一个专门玩这个的网站,叫图寻,参加每日挑战。
我的第一题,就是这个。
*
对,就这么个东西,让你猜这是中国的哪,在右下角的地图上打标,离终点越近,分越高。
我直接把这个扔给了o3,我们来看看,他的思考过程。
在这里插入图片描述
非常离谱的,自己去看图,把图片放大,一点一点思考,这个地方不对,哎换个地方我再放大看看。
以前模型的思维链,只有文字,而这次,这是大模型第一次,真正的把图片,也融入到了推理中。
我们再回过头来看看,刚才那道猜地题,它给出的答案。
在这里插入图片描述
虽然没有那么肯定,但是也给出了答案,北京门头沟、房山,109国道,妙峰山那一段。
我们来揭晓答案。
在这里插入图片描述
可能有些人对这个地点不熟悉,这个地方,叫北京,门头沟,109国道,妙峰山。
那一刻,我真的有点起鸡皮疙瘩了。
因为你会发现,AI开始像人一样去看图、像人一样去思考了。

以前你说AI懂图,懂什么?懂像素?懂特征?是的,它会提特征、会分类、会打标签,但它并不看图思考。

它是一个图像识别器,但不是一个图像思考者。

而今天,o3,是第一次让模型学会了看图思考,学会了视觉推理。

这个变化,堪称范式级别的跃迁。

是不是效果很惊艳,但是真正从底层来看的话,技术原理并没有0-1的变革性创新,甚至不足以称之为范式级跃迁。
换个角度来看,o3更像一个智能体了,具备了工具使用能力,在推理的基础上去调用了图片截取、放大、解析的能力。
这或许也是以后通用大模型发展的趋势,在参数性能没有巨幅提升的背景下,逐步扩展模型能力,向上渗透,与智能体的边界也会越来越模糊。

其实真正0-1创新,还是那些通用大模型、多模态大模型、推理大模型、智能体、多智能体协调等。在MCP和A2A协议诞生之后,在Manus出现以后,未来几年的发展趋势已经确定,剩下的只是时间问题,大家共同去见证。

就比如说,不久之后肯定还会出视频推理,工具使用进化为大模型调用基础编辑器给自己写工具(类比于使用工具和创造工具的区别),视频生成也会进一步突破10s、20s、直到120分钟直出影片。

用一个比较幽默的评论结尾吧:

程序员第一天:这也太厉害了吧!第二天:N+1

**项目名称:** 基于Vue.js与Spring Cloud架构的博客系统设计与开发——微服务分布式应用实践 **项目概述:** 本项目为计算机科学与技术专业本科毕业设计成果,旨在设计并实现一个采用前后端分离架构的现代化博客平台。系统前端基于Vue.js框架构建,提供响应式用户界面;后端采用Spring Cloud微服务架构,通过服务拆分、注册发现、配置中心及网关路由等技术,构建高可用、易扩展的分布式应用体系。项目重点探讨微服务模式下的系统设计、服务治理、数据一致性及部署运维等关键问题,体现了分布式系统在Web应用中的实践价值。 **技术架构:** 1. **前端技术栈:** Vue.js 2.x、Vue Router、Vuex、Element UI、Axios 2. **后端技术栈:** Spring Boot 2.x、Spring Cloud (Eureka/Nacos、Feign/OpenFeign、Ribbon、Hystrix、Zuul/Gateway、Config) 3. **数据存储:** MySQL 8.0(主数据存储)、Redis(缓存与会话管理) 4. **服务通信:** RESTful API、消息队列(可选RabbitMQ/Kafka) 5. **部署与运维:** Docker容器化、Jenkins持续集成、Nginx负载均衡 **核心功能模块:** - 用户管理:注册登录、权限控制、个人中心 - 文章管理:富文本编辑、分类标签、发布审核、评论互动 - 内容展示:首页推荐、分类检索、全文搜索、热门排行 - 系统管理:后台仪表盘、用户与内容监控、日志审计 - 微服务治理:服务健康检测、动态配置更新、熔断降级策略 **设计特点:** 1. **架构解耦:** 前后端完全分离,通过API网关统一接入,支持独立开发与部署。 2. **服务拆分:** 按业务域划分为用户服务、文章服务、评论服务、文件服务等独立微服务。 3. **高可用设计:** 采用服务注册发现机制,配合负载均衡与熔断器,提升系统容错能力。 4. **可扩展性:** 模块化设计支持横向扩展,配置中心实现运行时动态调整。 **项目成果:** 完成了一个具备完整博客功能、具备微服务典型特征的分布式系统原型,通过容器化部署验证了多服务协同运行的可行性,为云原生应用开发提供了实践参考。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值