AI进入自动驾驶时代：OpenAI发布革命性ChatGPT Agent-优快云博客

在这里插入图片描述

今日凌晨，OpenAI CEO Sam Altman宣布推出ChatGPT Agent，标志着AI正式从"回答问题"的助手时代，跨入了"自主执行任务"的代理时代。

简单来说，就像给一个聪明的助手配备了一台专属电脑，它可以在这台电脑上打开浏览器、运行程序、编辑文档，完成各种复杂的任务。

ChatGPT Agent结合了三大能力：Operator的网页交互能力、Deep Research的信息综合能力，以及ChatGPT的智能对话能力。它不再是一个只能回答问题的聊天机器人，而是一个真正能够"动手"的数字员工。

举个例子，如果你说：“查看我的日历，根据最近的新闻为即将到来的客户会议准备简报”，ChatGPT Agent会：

在这里插入图片描述

OpenAI核心成员Mark Gadala-Maria在推特上表示，他对ChatGPT Agent的发布感到非常兴奋，用了"🚨BREAKING🚨"（突发新闻）这样的标签，并称其为"GAMECHANGER"（游戏规则改变者），认为这项技术将"为每个人简化AI代理"的使用。

他用简洁明了的方式总结了ChatGPT Agent的六大核心功能，帮助大众快速理解这项新技术的重要性。

ChatGPT Agent的核心是一个名为Computer-Using Agent (CUA)的新模型。这个模型结合了GPT-4o的视觉能力和通过强化学习获得的高级推理能力，专门训练来与图形用户界面(GUI)交互——也就是人们在屏幕上看到的按钮、菜单和文本字段。

CUA通过处理原始像素数据来理解屏幕上发生的事情，并使用虚拟鼠标和键盘来完成任务。这就像教会了AI如何像人类一样"看"屏幕和"操作"电脑。

ChatGPT Agent配备了一套完整的工具集：视觉浏览器（用于与网页进行图形交互）、文本浏览器（用于简单的基于推理的网页查询）、终端，以及直接的API访问。

这种多工具设计让AI能够选择最优路径来完成任务。比如：

在这里插入图片描述

在"人类的最后考试"中，当ChatGPT Agent配备了浏览器和终端工具后，准确率达到了41.6%，远超其他AI模型。相比之下，没有工具辅助的ChatGPT Agent只有23%的准确率，这充分说明了"给AI配上工具"的重要性——就像给学生配上计算器和参考书一样。

更值得注意的是，即使是OpenAI最强大的o3模型（88B参数），准确率也只有24.9%，而ChatGPT Agent凭借其独特的"自主使用电脑"能力，实现了近乎翻倍的性能提升。

在这里插入图片描述

ChatGPT Agent在数据科学领域的卓越表现。DSBench是一个专门测试AI处理真实数据分析任务能力的基准，包括数据清洗、建模、可视化等数据科学家日常工作。

最引人注目的是，ChatGPT Agent在数据建模任务中达到了85.5%的准确率，不仅大幅领先其他AI模型，更是远超人类基准线（65%）。这意味着在某些数据分析工作上，AI已经比普通数据分析师做得更好了。

为什么ChatGPT Agent表现如此出色？关键在于它能像真正的数据科学家一样工作：

相比之下，传统AI模型（如AutoGen配合GPT-4o）只能达到45.5%，因为它们缺乏实际操作工具的能力。即使是强大的o3模型（77.1%），也因为无法真正"动手"操作而落后于ChatGPT Agent。

谷歌浏览器访问：www.nezhasoft.cloud

私信哪吒，备注体验ai，领取体验码。

还包含了ChatGPT4o、o4-mini-high、o3、GPT4.5、GPT4.1、Claude Sonnet 4、Gemini 2.5 Pro、Grok4、DeepSeek R1 0528等模型。

在这里插入图片描述

与传统AI助手最大的不同是，ChatGPT Agent能够真正自主地完成任务。用户可以要求它规划约会之夜，它会连接Google日历查看空闲时间，然后交叉参考OpenTable寻找合适的餐厅预订。整个过程中，用户可以随时介入调整需求。

ChatGPT Agent专为迭代、协作的工作流程而设计，比以往的模型更具交互性和灵活性。当ChatGPT工作时，你可以随时中断以澄清指示、引导期望的结果，或完全改变任务。

这种设计理念让AI不再是一个"黑盒子"，而是一个透明、可控的合作伙伴。如果任务耗时较长，用户可以暂停并要求进度总结，或者完全停止并接收部分结果。

类似于在浏览器上使用多个标签页，用户可以通过创建新对话让Operator同时运行多个任务，比如在Etsy上订购个性化搪瓷杯的同时在Hipcamp上预订露营地。

ChatGPT Agent的应用场景几乎涵盖了日常工作和生活的方方面面：

	具体场景	描述
商务场景	市场研究	分析竞争对手并创建演示文稿
	客户管理	阅读技术支持邮件，识别产品推广者，在LinkedIn上搜索他们，综合客户原型
	财务分析	分析损益表和绩效指标，生成带有洞察的PowerPoint报告
个人生活	旅行规划	研究目的地、比较航班价格、预订酒店
	购物助手	进行网上购物，因为Deep Research和Operator背后的技术组合比单独使用Operator更好、更彻底。
	日程管理	使用ChatGPT Agent自动化生活中的小事，比如每周四自动申请OpenAI的新办公室停车位。
创意工作	内容创作	收集资料、生成报告、制作演示文稿
	UX审计	浏览多个网站，记录用户流程，编制详细的可用性报告
	数据分析	运行代码、处理电子表格、生成可视化图表