OpenAI Agent发布会独家深度解读!两年来最大更新!10行代码即可开发专属Manus智能体!

正当人们还在热火朝天的讨论Manus的时候,OpenAI发布了两年以来最大的更新,重磅上线4大项Agent开发套件以及一个开源项目,从此开发者几行代码就可以创建一个专属的Manus。

图片

这听起来非常的梦幻!

距离发布会结束仅仅几个小时,X上就已经能看到铺天盖地的基于OpenAI Agent开发套件的琳琅满目的开发成果。有人开发了交互感不输Manus的通用Agent!

也有人实现了computer use,全自动爬取网络信息

并处理本地文件。

以及实现了大量的通用Agent创意功能:

甚至,在这场发布会上,我们还看到了OpenAI的开源的诚意,首次发布了一款工业级Multi-Agent开发框架,OpenAI Agents SDK。

图片

可以说OpenAI这的场发布会,对于Agent技术来说,就如23年11月的OpenAI开发者大会一样,意义非凡。

图片

接下来,我就从一名技术人的角度,为大家详细解读下这场发布会的核心内容。

观前提醒,这场发布会信息量巨大,光是更新的技术文档就有3万多字,我尽量用通俗的语言帮大家梳理最高价值的信息,此外,我们团队第一时间翻译了本次OpenAI大更新的完整技术文档,大家感兴趣的话扫码即可领取。

图片

图片

北京时间3月12号凌晨,OpenAI召开直播发布会,尽管没有提前预热,也没有类似GPT4.5这种噱头来镇场。

但这次发布的内容,绝对足以颠覆现有Agent技术开发格局。

本次发布会由OpenAI产品负责人Kevin主持,短短的20分钟不到,总共发布了4项新的API工具。

分别是Web Search、File Search、Computer use、Response API,以及一个开源项目OpenAI Agents SDK。

图片

这5个工具乍一看感觉并不惊艳,但事实并没有那么简单。

首先来看这次发布的Response API,这是OpenAI两年来最大的底层API更新,从今天开始,开发者可以不再使用chat.completions API来调用模型,而是直接调用responses API来调用模型。

要知道上一次底层API的更换,还是两年前,GPT3模型升级到GPT4模型的时候。

图片

这就非常有趣了,要知道截止2025年2月,全球有超过200万开发者使用OpenAI API,而一旦底层API调用规则更新,必然会导致大量代码重写,甚至是流失大量的开发者。

但OpenAI仍然一意孤行,大手一挥,就这么把底层API调用方法更新了,这是为什么呢?

最核心的原因,就是OpenAI希望自己的API不再是单纯的模型调用API,而是一个Agent开发API。

其实从发布会一开始,Kevin团队就一直在以一种类似前后端一体的形式演示各项工具,也就是左侧是一个网页,而右侧是代码编辑器。

同时,在右侧进行任何代码修改,都能在左边的浏览器中实时看到效果。这看着就非常酷炫。

是的,这就是全新的Response API的功能效果,自此,AI开发进入全民级前后端一体式开发新时代。这么看,确实值得进行一次底层API的大更新。

此外,新的Response API还能支持发布会上发布的其他三项工具,也就是Web Search、File Search和Computer use。尽管这三项功能听着耳熟,好像我们在别的地方也能看到这些功能,但OpenAI实现的程度,各个都是王炸级别。

举个例子,普通的Web Search就是上网搜集并汇总信息,而OpenAI的Web Search是Deep Research的API实现版!什么意思呢,前段时间,大家被Manus的网络搜索和长文本编写能力所震撼,如搜索并编写一篇研报,

而现在,OpenAI的Web Search,只需要三行代码即可实现相同功能。搜索又快有准

图片

长文本编写也是一气呵成。

大家之前如果体验过ChatGPT的DeepResearch应该能感受到。

图片

图片

再比如File Search,听着感觉就是RAG知识库检索功能,但实际上OpenAI的File Search最高支持100G海量文档检索,可以检索十几种主流类型的文件。这就不是简单的RAG系统了。

图片

值得一提的是,这个File Search就是OpenAI的Assistant API中的文件检索功能的升级版,这套RAG系统可谓是OpenAI的看家本领。

我们并不知道OpenAI是如何对100G海量文档进行检索的,但之前我们在使用Assistant API的时候确实能感受到,这套检索系统的性能完全不输GraphRAG,可以说是我所用过的最强的文本RAG系统。

紧接着,第三个功能,也是这次发布会的最劲爆的功能!

computer use。谁能想到,这个由Claude母公司,Anthropic在去年10月提出的实验性质的功能,现在由OpenAI发布了工业级解决方案。

所谓computer use,指的是让大模型看到电脑屏幕,并在了解电脑界面操作逻辑的基础上,全自动的代替人来操作电脑。

图片

大家其实能想象得到啊,电脑能力的边界,不就是现阶段人工智能的能力边界么?所以,自从computer use技术概念诞生以来,就被视作是大模型Agent的终极形态。

之前爆火的Manus,其技术本质就是computer use,只不过操作的不是本地的电脑,而是在沙盒环境中的云端的电脑。Manus的网页浏览、在线编程、进行文件管理等功能,本质上都是基于一个云端的电脑,借助computer use功能来完成的。

图片

而现在,OpenAI开放computer use API,让全体的开发者都借助这一功能来进行Agent开发。这个功能也被称作压垮Manus的最后一根稻草,不是,也被称作开启未来Agent发展之路的钥匙。

在OpenAI computer use功能上线的第一时间,外网就有大量用户评测出炉,无论是操作网页还是处理本地数据,都非常惊艳。

当然,以上所有的功能,Web Search、File Search和Computer use,在response API调度下,都可以自由组装来构成复杂问题的解决流程。

比如我想要制定一个旅行计划,那就需要Web Search搜集信息、File Search来检索我的出行习惯、同时需要Computer use来帮我预订机票旅馆等,并且,response API还能监督每个环节的执行情况,遇到问题会自动debug,从而保障任务完成率。

甚至OpenAI还提供了一个任务管理的后台,让开发者一目了然查看目前Agent执行进度。

而最最最关键的是,OpenAI还开源了能实现response API全套功能的OpenAI Agents SDK,不同于去年开源的swarm是一个实验项目,现在的Agents SDK是一个真正意义的企业级Multi Agent开发工具,这也是OpenAI截止目前最有诚意的开源项目。

图片

看到这么多重磅消息,恍惚间好像又回到了23年4月,那个GPT-4刚刚发布的月份,一切都是那么新奇,对未来是那么的期待。

其实早在今年年初,各大顶级科技大厂就预测,在大模型基座技术逐渐趋于成熟、外加市场需求井喷的当下,25年将会是Agent技术爆发元年,而OpenAI这轮发布会,无疑是吹响了冲锋的号角!

接下来的几天,我还将深度使用OpenAI发布的各项工具,并在第一时间为大家带来教学和评测视频,相关内容会在赋范大模型技术社区中上线,大家扫码即可加入。

好了,以上就是本期视频的全部内容。

我是九天,如果觉得有用,记得点赞关注哦!

图片

为每个人提供最有价值的技术赋能!【公益】大模型技术社区已经上线!

九天&菜菜&菊安酱&木羽老师,30+套原创系统教程,涵盖国内外主流「开&闭源大模型」调用与部署,RAG、Agent、微调实战案例…所有内容免费公开,还将定期追更最新大模型技术进展~

📍完整视频讲解+学习课件+项目源码包获取,扫描上方二维码即可进入赋范大模型技术社区领取~

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值