又一华人面孔!OpenAI 深夜祭Agent大招！背后研究人员曝光！奥特曼：感受AGI！VibePPT将至，Manus晒对比测评

jike007gt

于 2025-07-24 15:06:04 发布

阅读量794

点赞数 16

CC 4.0 BY-SA版权

文章标签： agi

本文链接：https://blog.youkuaiyun.com/jike007gt/article/details/149605320

又是一个不眠夜！

7 月对于 OpenAI 而言意义非凡，从去年盛传 GPT-5 将会发布，再到近日的被挖角风波，再到 OpenAI 即将推出 AI 浏览器，各种传言全都酝酿在今天凌晨的直播里。

发布前，小编的预期是，肯定是 Agentic 办公类的产品。因为在前两个月的博客中，Sam Altman 不止一次提及，现在是 Vibe Coding，下一个则看好类似 Google Docs 的办公 Agent 产品。

这次，Sam 在官宣发布推文后，给出的第一条推文总结了他的感受：

“feel the AGI” moment。

“观看 ChatGPT Agent 使用计算机思考、计划和执行复杂任务对我来说是一个真正的‘感受 AGI’时刻。”

合二为一的缝合怪？

果然，小编只猜中了一半。猜对的是果真是面向日常办公工作的产品，主打一个一句提示搞定 Excel 和 PPT。

正如那位 OpenAI 的研究员所发的推文：

在对各种实际工作任务（可能需要> 10 小时的专家任务）进行测试时，我们发现其输出几乎在 50% 的时间内都达到了人类质量。

没猜到的是，Altman 坦承了想法：很简单，我们就是融二为一了。

省流版的解释，这个 Agent 就是兼有下面两种功能，研究和动手两不误——

Operator：可与网页交互，如填写表单、点击按钮等；
Deep Research：可执行多步骤的深入研究任务。

这次直播中，Sam Altman 表示，ChatGPT Agent 的想法是在 OpenAI 推出其其他代理 Operator 和 Deep Research 之后产生的。Operator 使用自己的浏览器执行任务，而 Deep Research 可以在互联网上进行多步骤调查。

“我们很清楚，人们真正想要的是将这些功能整合在一起……人们想要一个统一的代理，它可以独立运行，使用自己的电脑，并为他们执行真正复杂的任务。”

OpenAI 表示，这款新工具可以“使用它自己的电脑”来处理复杂任务。

不过，在人类看来，这里的复杂任务，算不上多复杂。无疑就是我们日常办公的那些事儿了：读/发邮件、做PPT、编辑 Excel、网上购物等等。

为什么仍然值得一看？

但如果说这次给的演示有什么特别的话，就是场景更加贴近实际生活工作了：

ChatGPT 代理可以充当虚拟助手，连接到 Gmail 和 Google 日历等应用程序，执行起草电子邮件和安排预约等任务。它使用自己的虚拟计算机完成任务，并自行在推理和行动之间切换以执行指令。
OpenAI 表示，新工具可以“分析三个竞争对手并制作幻灯片”——代理将制定行动方案、浏览网站并创建可编辑的幻灯片。
它还可以通过“根据旧金山年度综合财务报告 (ACFR) 制作电子表格”之类的提示来创建可编辑的 Excel 电子表格。
该代理还可以为用户在线购物，但在执行敏感操作（例如输入个人信息或进行购买）之前，它始终会征求批准。

这些任务的完成并非通过传统编程接口调用，而是由 ChatGPT 自己在一个虚拟计算机环境中完成，这个环境配备了多种工具，能在网页上模拟真实用户的操作。

用户还可以授权连接自己的 Gmail、GitHub 等服务，让 ChatGPT 在任务中调用其中的信息。

这里小编为大家扒了看下两个案例：PPT 和 Excel。

至于原理，OpenAI 介绍道，Agent 模式可以调用三种工具：文本浏览器、可视化浏览器和终端。模型可以自主选择切换各种工具。

具体来说，文本浏览器用于广泛地读取和检索文字信息；可视化浏览器则在确定目标信息后，模拟鼠标和键盘操作，甚至可以处理图像内容；而终端则具备执行代码的能力，能够生成如 PPT、Excel 等各类文档，同时还可以调用云端 API 完成更复杂的任务，比如投行建模这些烧脑的事情。

总之，ChatGPT Agent 会动态选择最佳执行路径：它可以筛选结果、运行代码，甚至生成幻灯片和电子表格——同时在多步骤任务中保持完整上下文。

这里小编还要强调三个不同的地方：

大家都知道，目前大模型不是万能的，但大模型调用工具的能力可以说是“爱无限”。在演示中，Agent 可以连接 Google Drive API，读取文件之后生成更精准的 PPT 或邮件、表格；也可以调用 Image 生成器/生成模型，来实现文本到多模态的跨越（想起了腾讯元宝让DeepSeek画图的消息~）
对于涉及到隐私风险的操作，通知并得到用户的交互许可，依旧是主流。
Agent 的安全风险问题依旧严峻。OpenAI 随后在官方推文中表示，ChatGPT 具备新能力的同时，也引入了新的风险。目前，OpenAI 已针对多个风险类别实施了广泛的安全防护措施。

尤其是针对 对抗性提示注入（prompt injection）攻击采取了特别的防护机制，以防止模型被恶意操控。（似乎是在暗怼最近Claude和Grok的安全问题。）

有趣的是：机构叫好，用户喊没劲

好了，现在来说下大家的评价。

首先，发布后，很多人都觉得跟 Manus 很像，群里也有不少朋友对其表示失望。这种心情很普遍，也是大众对于 OpenAI 产品的过高期望。

比如一位网友就吐槽“生成的 PPT Slides 很丑”。这一点 OpenAI 也承认：

目前，部分功能如幻灯片生成仍处于 beta 阶段，排版可能不够完美，某些编辑也还存在边界。但这只是开始。OpenAI 正在持续优化：

幻灯片排版更自然

表格编辑速度更快

任务记忆和长期计划能力增强

循环任务的设置更便捷

其次，更多的网友，是觉得这次的演示Demo无新意，不够惊艳。

最后，甚至、网友们反问道：它帮我完成90~95%的占用我时间的工作后，那我岂不是被解雇了？

你看，这就是发布不惊艳的下场，用户的槽点就会转移到“AI替代我工作”的话题上，蛮无聊的。

不过，hackernews 上的用户的注意力就很极客，更多的是在讨论电子表格的案例。

他打开表格说：“我觉得它98%的信息都正确……我只需要复制/粘贴几项。如果它能帮你完成90%到95%的耗时工作，那能帮你省下一大笔时间。”

喜欢说出真相的网友则表示：找到剩下的 2% 的错误才是最麻烦最难得，可能需要我花费更多的时间！要命！

争议也由此展开了：

类比到编程，有网友评论指出“AI代码生成”也存在类似风险：通过测试不代表质量合格，测试无法发现所有漏洞，尤其是逻辑和架构上的错误。
同时也有反对者强调：“测试是找你已知问题的工具，但不是万能的”，必须配合审查流程、代码理解和良好的工程文化。

哈哈，只能说，这是另一个话题了。

做产品，OpenAI 不是唯一正确，但参考它准没错

但小编想说的是，全球 AI 发展早已经不是 OpenAI 一家驱动了，谷歌、Anthropic 已经鼎足。所以彼此之间、甚至模型和 Agent 产品之间的“左脚踩右脚”的发展态势会长期存在。期望 OpenAI 领跑产品形态这件事，不要抱太大期望。

那肯能会问，OpenAI 这次发了什么新东西吗？小编认为还是有的。

试想一下，你有没有在安装试用某款AI浏览器时，总是会被这样一段文字劝退：

你需要同意授权该产品可以收集、使用真实网页中用户数据，并可以执行操作。

这样带来的问题怎么解决？这个其实是很多厂商有意回避、没有解决方案的。

Agent 若获得过多数据访问权限，可能误读并采取不当行动了怎么办？

有恶意网站试图诱导 Agent 执行非法操作该怎么办？

Agent 可能误点按钮、选择错误商品、产生不可预期后果又来谁负责？

至少，OpenAI 带头提出了标杆式的解决措施：

关键操作需确认（如购物、付款等）
拒绝执行高风险任务（如银行转账）
支持随时删除浏览记录与登出
敏感输入不会被记录或存储

除此之外，还有吗？小编只能说，Spreadsheets 那个也是个不错的用例。

很多做数据爬虫工具的网站、甚至BI赛道的玩家都要重新思考将来的转型了。

如果不相信，就看一下OpenAI 的内部测试数据，以及Epoch AI 刚刚出炉的测评——

在多项复杂的数据科学与投资任务中超过人类表现
在网页浏览与任务完成的准确性上优于历代AI模型
在表格编辑、数据建模、高阶数学问题上表现极佳

华人新面孔：Agent背后的两位高材生

ps: 小编发现，这次又有新的华人面孔。左二，Zhiqing Sun ，去年 6 月加入OpenAI，目前是研究科学家，一口中式英语，非常亲切，细心地网友认出就是北大校友孙之清了。

在OpenAI期间，孙之清不仅参与到了o3/o4-mini、计算机使用智能体，以及Deep Research这几个关键项目当中，而且还是Deep Research的研究负责人。

另一位坐在C位的则是老面孔：Casey Chu，于2020年4月加入OpenAI，担任研究员。这位可以说是元老级别了，很多次直播发布中都有看到 Casey。他不仅是DALL·E 2的共同一作，而且还主导了GPT-4视觉输入的初始原型的开发。

什么时候用上？

OpenAI 这波新品正在被嵌入到 ChatGPT 中，目前只允许付费用户使用。

通过在 ChatGPT 的下拉工具菜单中选择“代理模式”即可访问。该代理现已从今天开始向 Pro、Plus 和 Team 用户推出，并计划于今年夏季向企业版和教育版用户推出。

不过，小编发现，身为plus用户的我，貌似并没有被cover到，有知道原因的道友可以告诉下原因。

不过，小编为大家找到了几张提前体验的用户交互截图。

最有意思的是，manus 今天官推也发了几张对比截图，嘲讽味道出来了🌚

完结。各位大佬如何看待这次的ChatGPT Agent呢？