OpenAI智能体新线索曝光！网友：新ChatGPT时刻要来了

转载于 2025-01-21 12:18:20 发布 · 100 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247774046&idx=4&sn=24799005d228f8616718ff80d80f7d96&chksm=e9c64db894597cda7027f72d74d0bfeede1670b280120074b2b6d9b11dd761d3a9142ab0f9a9&scene=126&sessionid=0

文章标签：

一水发自凹非寺
量子位 | 公众号 QbitAI

没错，OpenAI的智能体时代真的要来了！

据大名鼎鼎的“情报员”光头哥爆料，OpenAI在MAC版ChatGPT桌面应用中隐藏了启用/禁用智能体的选项。

从截图来看，确实是传闻已久、代号为“Operator（操作员）”的辣个：

而且这则爆料也得到了日常关注苹果方面消息的博主@M1的再次佐证：

Operator正在内测中，即将上线MAC版ChatGPT桌面应用……

根据介绍，Operator能够接管用户PC，直接代替人类自主执行一系列操作（如编码开发应用、订餐，做攻略等等）。

与此同时，OpenAI智能体和其他竞争对手（如Anthropic、谷歌智能体），以及人类选手的跑分对比也曝光了。

先划个重点，在几个评估智能体执行自动化任务水平的基准测试中，OpenAI这边均战胜了Claude智能体。

网友们纷纷激动表示，看起来离发布已经很近了，或许又会是下一个ChatGPT时刻。

而Windows用户则开启了刷屏模式，请不要仅限于Mac、请不要仅限于Mac、请不要仅限于Mac……（OpenAI你听到了吗）

多个基准跑分超过Claude智能体

从光头哥的另一条推文里，我们看到了OpenAI智能体和其他竞品的详细对比。

相关数据来自OpenAI网站，具体为图中标黄部分。

单拉出来看，在OSWorld这个专为多模态Agent设置的基准测试中，OpenAI CUA（据推测可能是驱动Operator的AI模型）得分为38.1%，领先于Anthropic的Computer use功能，但还不及人类自己操作的一半水平。

类似情况也在WebArena（CMU发布的基于Web环境的基准测试）上演。

不过，在WebVoyager（由腾讯AI Lab发布的多模态网络Agent基准测试）则稍有反转，OpenAI CUA取得了87%的好成绩，不仅一如既往地领先Anthropic，还以小幅优势超过了人类（85.3%）。

从一些具体任务的完成通过率来看，有辅助的Operator表现好过完全自主操作，不过偶尔还是比不上带视觉能力的GPT-4o。

有网友据此提问Operator是否不如GPT-4o，对此另有热心网友指出了二者区别：

一个是自主操作，一个是教你做事。

另外，对二者安全性的评估如下，GPT-4o在拒绝非法宣传、极端活动讨论等方面均为100%，而Operator在越狱（Jailbreaks）、进行非法活动以及禁止的金融活动方面没有达到100%。

需要提醒的是，在光头哥看来，以上跑分也可能只是占位符，具体真实性无法保证。（先来个免责声明）

2025：OpenAI重点布局Agent

事实上，Operator这款智能体早在去年11月就有相关爆料。

当时彭博社声称，OpenAI将在明年1月推出它，来替用户自动执行任务。

而现在，也算是进一步佐证了之前的消息。

甚至就在去年底，OpenAI CEO奥特曼也在新年目标中，明晃晃地将Agent排在前列。

而Flag立完后，OpenAI刚一开年也是马不停蹄地开始了相关动作。

上周，OpenAI就为ChatGPT推出了新功能「Tasks」，让AI有了执行力，可以替你完成各种任务。

无论是一次性提醒还是重复执行的动作，告诉ChatGPT你需要什么以及何时需要，它会自动帮你处理。

整体看起来有点偏向日程提醒，更像Agent的初级阶段。

合理推测，Operator将在此基础上有更多、更强的能力表现。

话说，从国内外科技企业对Agent的新追逐来看，今年Agent绝对有好戏看！

据市场研究公司Markets and Markets的分析，AI Agent的市场规模至2030年有望达到471亿美元。

如此吸引下，再加上已经成熟的大模型技术，Agent火爆2025简直不言而喻。

甚至就在今年的CES上，英伟达CEO黄仁勋也对Agent大加赞赏：

未来公司IT部门将成为Agent人力资源部门……（为公司改进大量Agents，从而为各部门提供新支持）

此番言论下，了解AI Agent技术也被开发者们提上了2025学习日程。

好嘛，不管是企业还是个人，接下来大家都得卷Agent了(doge）。

参考链接：
[1]https://techcrunch.com/2025/01/20/openais-agent-tool-may-be-nearing-release/?guccounter=1
[2]https://x.com/minchoi/status/1876644835286777922

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。