又一华人面孔!OpenAI 深夜祭Agent大招!背后研究人员曝光!奥特曼:感受AGI!VibePPT将至,Manus晒对比测评

又是一个不眠夜!

7 月对于 OpenAI 而言意义非凡,从去年盛传 GPT-5 将会发布,再到近日的被挖角风波,再到 OpenAI 即将推出 AI 浏览器,各种传言全都酝酿在今天凌晨的直播里。

发布前,小编的预期是,肯定是 Agentic 办公类的产品。因为在前两个月的博客中,Sam Altman 不止一次提及,现在是 Vibe Coding,下一个则看好类似 Google Docs 的办公 Agent 产品。

这次,Sam 在官宣发布推文后,给出的第一条推文总结了他的感受:

“feel the AGI” moment。 

图片

“观看 ChatGPT Agent 使用计算机思考、计划和执行复杂任务对我来说是一个真正的‘感受 AGI’时刻。”

合二为一的缝合怪?

果然,小编只猜中了一半。猜对的是果真是面向日常办公工作的产品,主打一个 一句提示搞定 Excel 和 PPT。

正如那位 OpenAI 的研究员所发的推文:

在对各种实际工作任务(可能需要> 10 小时的专家任务)进行测试时,我们发现其输出几乎在 50% 的时间内都达到了人类质量。

没猜到的是,Altman 坦承了想法:很简单,我们就是融二为一了。

省流版的解释,这个 Agent 就是兼有下面两种功能,研究和动手两不误——

  • Operator:可与网页交互,如填写表单、点击按钮等;
  • Deep Research:可执行多步骤的深入研究任务。

图片

这次直播中,Sam Altman 表示,ChatGPT Agent 的想法是在 OpenAI 推出其其他代理 Operator 和 Deep Research 之后产生的。Operator 使用自己的浏览器执行任务,而 Deep Research 可以在互联网上进行多步骤调查。

“我们很清楚,人们真正想要的是将这些功能整合在一起……人们想要一个统一的代理,它可以独立运行,使用自己的电脑,并为他们执行真正复杂的任务。”

OpenAI 表示,这款新工具可以“使用它自己的电脑”来处理复杂任务。

不过,在人类看来,这里的复杂任务,算不上多复杂。无疑就是我们日常办公的那些事儿了:读/发邮件、做PPT、编辑 Excel、网上购物等等。

为什么仍然值得一看?

但如果说这次给的演示有什么特别的话,就是场景更加贴近实际生活工作了:

  • ChatGPT 代理可以充当虚拟助手,连接到 Gmail 和 Google 日历等应用程序,执行起草电子邮件和安排预约等任务。它使用自己的虚拟计算机完成任务,并自行在推理和行动之间切换以执行指令。
  • OpenAI 表示,新工具可以“分析三个竞争对手并制作幻灯片”——代理将制定行动方案、浏览网站并创建可编辑的幻灯片。
  • 它还可以通过“根据旧金山年度综合财务报告 (ACFR) 制作电子表格”之类的提示来创建可编辑的 Excel 电子表格。
  • 该代理还可以为用户在线购物,但在执行敏感操作(例如输入个人信息或进行购买)之前,它始终会征求批准。

这些任务的完成并非通过传统编程接口调用,而是由 ChatGPT 自己在一个虚拟计算机环境中完成,这个环境配备了多种工具,能在网页上模拟真实用户的操作。

用户还可以授权连接自己的 Gmail、GitHub 等服务,让 ChatGPT 在任务中调用其中的信息。

图片

这里小编为大家扒了看下两个案例:PPT 和 Excel。

至于原理,OpenAI 介绍道,Agent 模式可以调用三种工具:文本浏览器、可视化浏览器和终端。模型可以自主选择切换各种工具。

具体来说,文本浏览器用于广泛地读取和检索文字信息;可视化浏览器则在确定目标信息后,模拟鼠标和键盘操作,甚至可以处理图像内容;而终端则具备执行代码的能力,能够生成如 PPT、Excel 等各类文档,同时还可以调用云端 API 完成更复杂的任务,比如投行建模这些烧脑的事情。

总之,ChatGPT Agent 会动态选择最佳执行路径:它可以筛选结果、运行代码,甚至生成幻灯片和电子表格——同时在多步骤任务中保持完整上下文

这里小编还要强调三个不同的地方:

  • 大家都知道,目前大模型不是万能的,但大模型调用工具的能力可以说是“爱无限”。在演示中,Agent 可以连接 Google Drive API,读取文件之后生成更精准的 PPT 或邮件、表格;也可以调用 Image 生成器/生成模型,来实现文本到多模态的跨越(想起了腾讯元宝让DeepSeek画图的消息~)
  • 对于涉及到隐私风险的操作,通知并得到用户的交互许可,依旧是主流。
  • Agent 的安全风险问题依旧严峻。OpenAI 随后在官方推文中表示,ChatGPT 具备新能力的同时,也引入了新的风险。目前,OpenAI 已针对多个风险类别实施了广泛的安全防护措施

尤其是针对 对抗性提示注入(prompt injection)攻击采取了特别的防护机制,以防止模型被恶意操控。(似乎是在暗怼最近Claude和Grok的安全问题。)

图片

有趣的是:机构叫好,用户喊没劲

好了,现在来说下大家的评价。

首先,发布后,很多人都觉得跟 Manus 很像,群里也有不少朋友对其表示失望。这种心情很普遍,也是大众对于 OpenAI 产品的过高期望。

比如一位网友就吐槽“生成的 PPT Slides 很丑”。这一点 OpenAI 也承认:

目前,部分功能如幻灯片生成仍处于 beta 阶段,排版可能不够完美,某些编辑也还存在边界。但这只是开始。OpenAI 正在持续优化:

幻灯片排版更自然

表格编辑速度更快

任务记忆和长期计划能力增强

循环任务的设置更便捷

其次,更多的网友,是觉得这次的演示Demo无新意,不够惊艳。

图片

最后,甚至、网友们反问道:它帮我完成90~95%的占用我时间的工作后,那我岂不是被解雇了?

图片

你看,这就是发布不惊艳的下场,用户的槽点就会转移到“AI替代我工作”的话题上,蛮无聊的。

不过,hackernews 上的用户的注意力就很极客,更多的是在讨论电子表格的案例。

他打开表格说:“我觉得它98%的信息都正确……我只需要复制/粘贴几项。如果它能帮你完成90%到95%的耗时工作,那能帮你省下一大笔时间。”

图片

喜欢说出真相的网友则表示:找到剩下的 2% 的错误才是最麻烦最难得,可能需要我花费更多的时间!要命!

争议也由此展开了:

  • 类比到编程,有网友评论指出“AI代码生成”也存在类似风险:通过测试不代表质量合格,测试无法发现所有漏洞,尤其是逻辑和架构上的错误。
  • 同时也有反对者强调:“测试是找你已知问题的工具,但不是万能的”,必须配合审查流程、代码理解和良好的工程文化。

哈哈,只能说,这是另一个话题了。

做产品,OpenAI 不是唯一正确,但参考它准没错

但小编想说的是,全球 AI 发展早已经不是 OpenAI 一家驱动了,谷歌、Anthropic 已经鼎足。所以彼此之间、甚至模型和 Agent 产品之间的“左脚踩右脚”的发展态势会长期存在。期望 OpenAI 领跑产品形态这件事,不要抱太大期望。

那肯能会问,OpenAI 这次发了什么新东西吗?小编认为还是有的。

试想一下,你有没有在安装试用某款AI浏览器时,总是会被这样一段文字劝退:

你需要同意授权该产品可以收集、使用真实网页中用户数据,并可以执行操作。

这样带来的问题怎么解决?这个其实是很多厂商有意回避、没有解决方案的。

Agent 若获得过多数据访问权限,可能误读并采取不当行动了怎么办?

有恶意网站试图诱导 Agent 执行非法操作该怎么办?

Agent 可能误点按钮、选择错误商品、产生不可预期后果又来谁负责?

至少,OpenAI 带头提出了标杆式的解决措施:

  • 关键操作需确认(如购物、付款等)
  • 拒绝执行高风险任务(如银行转账)
  • 支持随时删除浏览记录与登出
  • 敏感输入不会被记录或存储

除此之外,还有吗?小编只能说,Spreadsheets 那个也是个不错的用例。

很多做数据爬虫工具的网站、甚至BI赛道的玩家都要重新思考将来的转型了。

如果不相信,就看一下OpenAI 的内部测试数据,以及Epoch AI 刚刚出炉的测评——

  • 在多项复杂的数据科学与投资任务中超过人类表现
  • 在网页浏览与任务完成的准确性上优于历代AI模型
  • 在表格编辑、数据建模、高阶数学问题上表现极佳

图片

图像

华人新面孔:Agent背后的两位高材生

ps: 小编发现,这次又有新的华人面孔。左二,Zhiqing Sun ,去年 6 月加入OpenAI,目前是研究科学家,一口中式英语,非常亲切,细心地网友认出就是北大校友孙之清了。

图片

在OpenAI期间,孙之清不仅参与到了o3/o4-mini、计算机使用智能体,以及Deep Research这几个关键项目当中,而且还是Deep Research的研究负责人。

另一位坐在C位的则是老面孔:Casey Chu,于2020年4月加入OpenAI,担任研究员。这位可以说是元老级别了,很多次直播发布中都有看到 Casey。他不仅是DALL·E 2的共同一作,而且还主导了GPT-4视觉输入的初始原型的开发。

图片

什么时候用上?

OpenAI 这波新品正在被嵌入到 ChatGPT 中,目前只允许付费用户使用。

通过在 ChatGPT 的下拉工具菜单中选择“代理模式”即可访问。该代理现已从今天开始向 Pro、Plus 和 Team 用户推出,并计划于今年夏季向企业版和教育版用户推出。

不过,小编发现,身为plus用户的我,貌似并没有被cover到,有知道原因的道友可以告诉下原因。

图片

不过,小编为大家找到了几张提前体验的用户交互截图。

图片

图片

图片

最有意思的是,manus 今天官推也发了几张对比截图,嘲讽味道出来了🌚

图片

图片

图片

完结。各位大佬如何看待这次的ChatGPT Agent呢?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值