刚支持MCP就完了？OpenAI打响AI Agent标准之战

最新推荐文章于 2025-05-14 11:46:11 发布

大模型入门教程

最新推荐文章于 2025-05-14 11:46:11 发布

阅读量908

点赞数 24

文章标签：人工智能大模型教程 AI 大模型程序员 Agent MCP

本文链接：https://blog.youkuaiyun.com/2401_85343303/article/details/146711923

版权

引言： Anthropic辛苦搭起来的MCP技术流量必当截然而止，当国内AI使用者还在到处找Manus邀请码，各大科技媒体吹捧MCP技术时，OpenAI悄然抛出了一枚「技术深水炸弹」— Responses API 与开源 Agent SDK 横空出世，OpenAI这套工具不仅重新定义了AI Agent(AI代理)的开发逻辑，更掀起了行业智能体开发标准的话语权争夺战。这场没有硝烟的战争，或将彻底改变未来几年人机协作的底层规则。

上周OpeanAI发布了迄今为止第一套 AI Agent(AI代理) 开发工具，将帮助开发人员和企业搭建实用可靠的AI Agent(AI代理)。“AI代理”可以被解释为能代表用户独立完成任务的AI系统。

在2024年，OpeanAI陆续引入了新的模型功能（例如高级推理、多模式交互和新的安全技术），这些功能为模型处理AI Agent(AI代理)所需的复杂、多步骤任务奠定了基础。然而，过去接触过AI Agent(AI代理)的客户表示，要将这些功能转化为可用于生产的AI Agent(AI代理)是非常困难的，通常需要大量的快速迭代和自定义编排操作，因为没有足够的内置工具支持。

OpenAI在AI Agent领域的绝地反击

MCP技术是Anthropic在2024年设计开发推出的AI Agent(AI代理)开发技术，就在OpenAI反击之前MCP已经快成为业内实现AI Agent(AI代理)的开发事实标准，疯哥认为在技术发展初期谁家产品或技术被使用的越多就越有可能成为标准。

所以，过去一年，Anthropic凭借MCP技术在全球AI Agent(AI代理)社区中攻城略地，甚至有被业界视为下一代AI工具链的「隐形标准」。然而，OpenAI 因为 Completions API陈旧架构，逐渐显露出力不从心的疲态。

使用过ChatGPT的用户都有这个感觉，每次对话都要带上”我是谁，你是谁”把之前对话中的内容在新的对话中重新说一遍，疯哥告诉你这是OpenAI赚我们Token费用的套路，因为OpenAI收费模式是按照Token数量来的。所以，大多数用户不得不维护冗长的对话内容和状态，并且要支付高昂的Token成本，直到现在OpenAI被迫拿出Responses API，僵局才被慢慢打开。

为了应对MCP的挑战，OpeanAI终于在2025年3月推出了一套新的 API 和开发工具，专门用于简化AI Agent(AI代理)应用程序的开发，疯哥经过研究总结了以下几项：

1、3个内置工具，包括网页搜索、文件搜索以及电脑控制。

2、新的Agents SDK，协调单代理和多代理工作流程

3、集成了用来观察跟踪和检查AI Agent(AI代理)工作流程执行情况的工具。

看似简单，可疯哥认为OpeanAI新发布的这套工具其实是为开发者开发AI Agent(AI代理)打造了一条「零摩擦」的协作模式。未来我们只需将需求给到大模型，剩下的工具调用( 如搜索互联网、电脑控制、文件搜索、状态管理、多轮对话全部都由AI自主决策。这种「以大模型自主决策」的设计哲学，彻底颠覆了传统以流程为核心的开发模式。疯哥认为，工作流模式和自主决策模式会并存，并不是说自主决策模式就比工作流强大，目前而言自主决策模式也是一种工作流程模式，只是工作流编排交给AI自己的去搞，不需要认为手动编排，不过目前AI还远没有达到代替人做决策的水平，就商业应用场景而已AI工作流会比AI自主决策更早落地。

OpeanAI计划在接下来的几周和几个月内，发布更多基于AI Agent(AI代理)的工具和功能，会进一步简化和加速搭建AI Agent(AI代理)应用程序。这里提一句，OpeanAI发布的工具和SDK目前还是在它们自己的平台上使用，要等到外部厂商都升级API之后看社区是不是有别的创意，按照OpeanAI说法它们会将Agents SDK开源，我们只需要用Python或Nodejs来调用外部工具（如股票查询、天气服务），就可以无缝接入Responses API生态。OpeanAI此举动，疯哥解读为直指MCP技术的最大软肋，MCP目前最主要的一个门槛阻碍就是我们在搭建MCP服务时要面对复杂的本地服务器依赖配置。经过疯哥研究，OpeanAI推出的这套工具技术确实要比搭建一个MCP服务要方便许多，OpeanAI是希望将用户慢慢绑定到OpeanAI平台上，当开发者将知识库沉淀在OpenAI上、当企业习惯用Agent SDK调用工具链，迁移成本将成为一道无形高墙。到时候OpenAI就可以拿着镰刀随便割韭菜了。

Responses API介绍

这次， OpenAI推出的 Responses API 疯哥认为是对 Assistants API 的升级，新的 Responses API逻辑是将 Chat Completions API (AI对话模式API)与 Assistants API (AI助手模式API) 结合一起用来搭建智能体。过去 OpenAI一直使用的是对话模式接口，我们称为“Chat Completions”而且市面上所有大模型厂商的API几乎都使用的是 “Chat Completions”模式，因为全球超过80%的大模型服务兼容OpenAI API格式，从谷歌Gemini到国内Deepseek，通义千问等大模型，甚至第三方云平台，早已形成庞大的“Chat Completions”模式队伍，可以说，过去我们调用大模型API都是按照 “Chat Completions”模式来的。

首先，Responses API 支持新的3款内置工具，“网页搜索”、“文件搜索”和“计算机控制”。这3个工具可以一起协同工作，将大模型与外部世界联系起来，只需一次 Responses API 调用，我们就能使用多种工具和模型转换来解决复杂的任务操作，比如自动打开浏览器搜索结果或者控制电脑查找文件等。

Responses API 目前是为那些希望将 OpenAI 模型和内置工具结合到自身应用程序中的开发人员而设计，我们可以不用对接外部API或其他供应商，简单说，Responses API 就是面向智能体开发人员的。所有开发人员都可以使用Responses API，OpenAI 只对开发时消耗的Token和工具量收费，Responses API本身使用是不另外收费的。

我们上面提到 Responses API 是要将Chat Completions API (AI对话模式API)与 Assistants API (AI助手模式API) 融合在一起并进行不断改进和优化，它们计划在2026年时全面切换到 Responses API 上，到时候 Assistants API (AI助手模式API) 将被弃用。

工具1 - 网络搜索

在 Responses API 中，使用 gpt-4o 和 gpt-4o-mini 时，开发人员都可以使用“网络搜索”工具，并且，可以和其他工具或函数搭配使用。

例子代码如下：

我们再看一下分别使用 gpt-4o 和 gpt-4o-mini 进行网络搜索的精准度统计，GPT-4o 搜索和 gpt-4o-mini 搜索的得分分别为 90% 和 88%。

OpenAI对 GPT-4o 搜索和 4o-mini 搜索的收费是每千次查询 30美元=210元和 25美元=175元。

工具2 - 文件搜索

OpenAI对文件搜索工具进行了改进，据官方介绍开发人员可以快速、准确地从大量的不同格式的文件中搜索相关信息，还能进行关键词排序，元数据过滤等操作，这里官方给出了代码例子，只需几行代码即可调用。

我们看一下JS代码例子：

使用到“文件搜索”工具的使用场景会比较多，包括常见问题解答、能帮我们快速找到可参考过往案例的法律助理，帮助工程师写代码时查询技术文档，快速从知识库中的文章中找到精确答案。我们可以基于这个“文件搜索”工具创建强大的 RAG (检索增强生成，通常指对大模型输出进行干预优化，让大模型能够使用外部权威数据)应用，而无需额外调整或配置。另外，OpenAI通过Responses API调用文件搜索为我们提供专用的向量存储(类似向量数据库)。

OpenAI“文件搜索”工具的收费是每千次查询2.50美元=17.5元，文件存储收费 0.10 美元/GB/天。OpenAI还提供对向量存储数据的 API调用，如果想在应用程序中使用向量存储的数据时可以直接通过API获取即可。

工具3 - 电脑控制

智能体最后多半是需要像人类一样操作电脑上很多的软件工具完成复杂的任务，这一步类似RPA软件的一样自动化模拟鼠标点击系统窗口按钮和键盘输入文字等操作。比如，打开浏览器进行谷歌搜索查找，复制网页内容保存成文件保存到电脑上，打开文件窗口查找文件并打开复制需要的内容，甚至设计PPT和编写Excel等（嗯，开个玩笑！智能体现在还没这个水平，相信未来可以）。

OpenAI将控制电脑操作这个功能交给了“Computer-Using Agent”来负责，简称“CUA”。CUA 是建立在大模型对多模态理解和推理的基础之上的底层是利用GPT‑4o 模型的视觉功能，通过强化学习与高级推理相结合，CUA 经过训练后可以像人类一样看得懂电脑图形用户界面 (GUI)（人们在屏幕上看到的按钮、菜单和文本等）并可以像人一样操作各种电脑上的软件。它可以将任务分解为多步骤，并且能在出现问题时自我纠正。CUA 应该也是未来AI开发的一个应用方向，允许大模型像人类一样日常操作使用各种工具完成任务。

CUA 仍处于早期阶段且存在局限性，现在CUA运行不是100%都能正确识别的，会有一定误差，可以了解一下CUA在不同环境下的成功率，在 OSWorld 上针对完整计算机使用任务的成功率为 38.1%，在 WebArena 上针对基于 Web 的任务的成功率为 58.1%，在 WebVoyager 上针对基于 Web 的任务的成功率为 87%。

所以疯哥说过智能体商用还有很长的路要走。

CUA 运行原理如图所示：

CUA也非常有意思，我们从这幅原理图中得知CUA是用视觉推理观察电脑屏幕上的像素点变化理解发生了什么事，并使用虚拟鼠标和键盘完成操作。它可以导航多步骤任务、处理错误并适应意外变化。这使得 CUA 能够在广泛的数字环境中运行，执行填写表格和浏览网站等比较简单的任务，而无需专门的 API。

根据用户的指令，CUA 通过视觉集成感知、推理和动作的迭代循环进行操作：

感知：CUA 会不断将计算机的屏幕截图，然后将截图给到多模态大模型，这样提供计算机当前状态的视觉快照。
推理：CUA 根据对截图的分析推理后续步骤，同时考虑当前和过去的屏幕截图和操作。这使模型能够评估其观察结果、跟踪中间步骤并动态调整，从而提高任务性能。
操作：执行操作（鼠标点击、滚动或键盘输入），直到确定任务已完成或需要用户输入。虽然 CUA 会自动处理大多数步骤，但对于复杂操作（例如输入登录信息或输入验证码），CUA 提示用户确认。

我们看一下官方给出的js代码例子：

我们再来看一下OpenAI对调用CUA的收费政策，CUA对每一百万个条输入收费3美元=21元，每100万个输出是12美元=84元，一进一出就是21+84=105元。

AI Agnet SDK

这次OpenAI推出的智能体SDK，是用来简化对多个智能体的工作流程进行协调，去年OpenAI就发布了一名为 “Swarm” 的SDK，它是实验性质的，当时也被开发社区广泛采用，在多个实际案例中成功部署。

Swarm 也是开源的，GitHub网址： https://github.com/openai/swarm

AI Agent SDK 是在 Swarm 的基础上进行了改进优化，改进包括如下几个方面：

代理：更加方便对大模型进行配置，具有清晰的说明和内置工具。
交接：在智能体之间智能地转移控制权。
护栏：对输入和输出增加了安全检查，而且是可配置的。
跟踪和可观察性：可视化代理执行跟踪以调试和优化性能。

下面是一个Python的代码例子：

那么 Agents SDK 到底可以帮我们做什么，Agents SDK是给开发人员使用的，它其实可以直接帮我们解决一堆实际问题，比如自动回复客户咨询、搞复杂数据分析、批量生成内容、检查代码漏洞，甚至帮销售团队挖潜在客户。哈，这不就是疯哥平时教大家学习n8n的目的么！在AI自动化工作流领域早就可以实现各种业务场景了，现在AI Agent只不过使用另外一种方式同样再去实现一遍。

我举两个实际的案例：

Coinbase（美国上市的加密货币交易所）它们用这工具包(Agents SDK)，几天就捣鼓出一个叫 AgentKit 的东西。这 AgentKit 能让AI Agent直接和用户的加密钱包、区块链上的交易数据打交道，开发者不用吭哧吭哧写底层代码，只要把自家平台的定制功能“插”进去，立马就能跑起来。用他们的话说：“以前搞个新功能得折腾几周，现在喝杯咖啡的功夫就搞定了。”

再比如Box（国外著名云存储），用Agents SDK结合网络搜索功能，整了个能同时可以查找自家数据库和全网公开资料的智能代理。企业用户现在能安全地搜索内部机密文件，还能结合网上实时新闻做深度分析。举个具体场景：某金融公司让AI Agent把自家存储在Box里的市场报告，和网上最新的经济数据一锅炖，直接给分析师端上“投资决策全家桶”，效率直接拉满。

再举个例子：某医院部署了“AI自动化智能体”，把病历分析、药品检查这些专业活甩给“AI自动化智能体”，医生每天省出3小时研究疑难病例。这还只是开始——等相关工具再迭代两轮，估计连公司老板能让AI代劳了。

Agents SDK对于技术人员来说还算比较友好，Agents SDK 工具包最大特点是兼容OpenAI自家产品，能与 Responses API、Chat Completions API无缝配合，其他家的模型只要接口格式对得上也能用。现在用Python分分钟就能接入，听说Node.js版本也快上线了。

题外话当时OpenAI在做 Agents SDK时偷师了不少社区大佬的绝活，像Pydantic这些神级项目给了它们超多灵感。这样， Agents SDK只能彻底开源！

Pydantic是一个Python下一个数据验证库。 https://docs.pydantic.dev/latest/