一、什么是A2A?
Agent-to-Agent(A2A)协议是谷歌推出的开放标准协议,旨在解决AI智能体之间的互操作性问题,允许不同供应商、框架和平台的智能体跨系统安全协作,打破“信息孤岛”。其核心功能包括能力发现、任务管理、多模态通信以及用户体验协商,使智能体能够像人类团队一样自然协作,完成复杂任务。
二、为什么需要A2A?——核心价值与设计原则
核心价值
- 提升协作效率:解决多智能体生态中因技术栈不同导致的协作障碍,释放跨系统协同潜力。
- 降低集成成本:通过标准化协议减少企业整合多平台智能体的开发与维护成本。
- 推动创新:促进不同智能体能力的组合,激发新应用场景(如跨部门招聘、供应链优化等)。
设计原则
- 拥抱智能体原生能力:支持智能体以自然、非结构化方式协作,无需共享内存或工具。
- 基于现有标准:协议建立在HTTP、SSE、JSON-RPC等成熟技术上,便于与企业现有IT系统集成。
- 默认安全:支持企业级身份验证与授权机制,保障数据安全与合规。
- 支持长时任务:灵活处理从秒级响应到数天的任务,并提供实时状态更新。
- 多模态支持:兼容文本、音频、视频等多种交互形式。
三、A2A如何工作?
A2A 定义了"客户端"智能体(发起任务)和"远程"智能体(执行任务)之间的通信模型。其核心概念包括:
- 智能体名片 (Agent Card):一个公开的元数据文件(通常位于
/.well-known/agent.json
),描述智能体的能力、技能、端点 URL 和认证要求,供客户端发现。 - A2A 服务器 (A2A Server):实现 A2A 协议方法(如
tasks/send
)的智能体 HTTP 端点。 - A2A 客户端 (A2A Client):消费 A2A 服务的应用程序或其他智能体。
- 任务 (Task):工作的核心单元。客户端通过发送消息 (
tasks/send
或tasks/sendSubscribe
) 启动任务。任务有唯一 ID,并经历不同状态(submitted
,working
,input-required
,completed
,failed
,canceled
)。 - 消息 (Message):代表客户端(
user
角色)和智能体(agent
角色)之间的通信回合,包含多个"部件"。 - 部件 (Part):消息或工件内的基本内容单元,可以是文本 (
TextPart
)、文件 (FilePart
,内联字节或 URI)或结构化数据 (DataPart
,如 JSON 表单)。 - 工件 (Artifact):智能体在任务期间生成的输出(如生成的文件、最终结构化数据),也包含"部件"。
- 流式传输 (Streaming):对于长时任务,支持
streaming
能力的服务器可通过tasks/sendSubscribe
,让客户端接收包含任务状态 (TaskStatusUpdateEvent
) 或工件更新 (TaskArtifactUpdateEvent
) 的服务器发送事件 (SSE),实现实时进度跟踪。 - 推送通知 (Push Notifications):支持
pushNotifications
的服务器可以将任务更新主动推送到客户端提供的 webhook URL。
典型流程:
-
发现 (Discovery):客户端从服务器的周知 URL 获取智能体名片。
-
启动 (Initiation):客户端发送
tasks/send
或tasks/sendSubscribe
请求,包含初始用户消息和唯一的任务 ID。 -
处理 (Processing):
- (流式): 服务器发送 SSE 事件。
- (非流式): 服务器同步处理并返回最终任务对象。
-
交互 (Interaction - 可选):若任务进入
input-required
状态,客户端使用相同任务 ID 通过tasks/send
或tasks/sendSubscribe
发送后续消息。 -
完成 (Completion):任务达到最终状态(
completed
,failed
,canceled
)。
实际案例:候选人招聘
想象一下招聘软件工程师的场景。招聘经理可以在统一界面(如 Agentspace)中指示其智能体,根据职位描述、地点和技能要求寻找候选人。该智能体随后利用 A2A 与其他专门负责招聘(如对接 LinkedIn 或内部 HR 系统)的智能体协作,汇总候选人建议。用户审核后,可以指示其智能体安排面试,甚至调用另一个智能体进行背景调查。这个过程展示了智能体如何通过 A2A 跨系统协作,高效完成复杂任务。
官方Agent示例:CrewAI + A2A 实现图像生成智能体
下面是一个更具体的例子,展示了如何将流行的智能体框架 CrewAI 与 A2A 协议结合,构建一个图像生成智能体。
核心思路:
这个智能体利用 CrewAI 来编排任务,并调用 Google Gemini API 来根据文本提示生成图像。A2A 协议则负责提供一个标准化的接口,允许其他 A2A 客户端发送生成请求,并以"工件 (Artifact)"的形式接收生成的图片。
关键组件:
- CrewAI 智能体: 包含图像生成工具和逻辑的核心智能体。
- A2A 服务器: 包装 CrewAI 智能体,提供符合 A2A 协议的 HTTP 端点。
- 图像生成: 使用 Google Gemini API 实现文生图功能。
- 缓存系统: (可选) 用于存储生成的图像,以便后续检索(内存或文件)。
主要特点:
- 通过 Google Gemini 实现文本到图像的生成。
- (示例中可能包含) 支持基于参考图像进行修改。
- 包含错误处理和重试机制。
- 可选的文件持久化缓存。
局限性:
- 该示例可能不包含真正的流式传输(因为 CrewAI 本身原生支持有限)。
- 可能仅限于单轮交互,不支持复杂的多轮对话。
运行示例 (简要步骤):
- 获取代码示例 (通常在 A2A 的官方仓库
samples/python/agents/crewai
目录下)。 - 配置你的 Google API Key (通常通过
.env
文件)。 - 设置 Python 环境并安装依赖 (推荐使用
uv
)。 - 运行 A2A 服务器 (即 CrewAI 智能体)。
- 在另一个终端运行 A2A 客户端与之交互。
这个例子清晰地展示了如何将现有的智能体框架通过 A2A 协议接入更广泛的智能体生态系统,让其能力可以被其他遵循 A2A 协议的客户端发现和调用。
四、A2A与MCP的关系
互补性:
- MCP(模型上下文协议):由Anthropic提出,专注于为智能体提供上下文感知和工具调用能力(如API访问、数据资源),解决“如何执行任务”。
- A2A:聚焦智能体间的通信与协作,解决“如何协同完成任务”。
协作案例:在汽车维修场景中,MCP让维修智能体使用千斤顶等工具,而A2A支持其与客户或其他智能体沟通(如请求轮胎照片)。两者结合可实现“工具调用+团队协作”的完整闭环。
总结
A2A协议通过标准化通信机制,推动AI智能体从孤立执行向生态协作转型,其与MCP的互补性为未来多智能体系统提供了完整的技术栈。随着Atlassian、Salesforce等50余家企业的支持,A2A有望成为智能体交互的“通用语言”,重塑企业智能化应用的开发与部署范式。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费
】
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。