AI 崛起,能够自主规划并执行多个步骤的 Agents,正成为用户的接口,也成为开发者的核心着力点。
近期美国风投 Madrona 合伙人 John Turow 发表了一篇行业洞察**《The Rise of AI Agent Infrastructure》,分享了 agent 领域的观察和思考,他谈到尽管当前 Agent 存在明显局限,但丝毫不影响 Agent 激增的势头,并推动着新的基础设施不断发展。本文希望通过盘点文章中出现的项目,窥探 Agent 基础设施发展现状以及突出的项目情况。
Agent 领域的研究进展可观,在一些技术细节上有了初步共识。
从 MRKL、ReAct、BabyAGI 和 AutoGPT 等工作开始,开发者们意识到链式的提示和响应可以使大模型将任务拆解成小任务并执行;
LangChain、Griptap 等框架展示了 Agents 通过代码与 API 交互的能力。 Toolformer 和 Goriila 等研究表明,基础模型可以有效使用 API。
微软(autogen)、斯坦福(AgentSims)和腾讯的研究里揭示了 Agents 协同工作能带来比单 Agent 工作更好的效果。
不可否认的说,今天的 Agents 还有很多局限性,例如经常出错、需要指导,在带宽、成本、延迟和用户体验上都还有很大的优化空间。这些局限反映了 LLM 本身与基础设施的局限性,开发者们努力通过工程能力来弥补这一点,并随之加速着 Agents 基础设施的搭建。
支撑 Agents 的基础设施
在 AI Agents 基础设施的早期时代,多数 Agents 是直接构建完成的。通常需要用于管理 agent 的云主机、存储记忆与状态的数据库、从外部来源获取上下文的连接器,以及用于调用外部 API 的能力。
早期 AI Agent Infra 情况
在当前,我们仍处于手工制作 Agents 的时代。对开发人员来说,短期内最有效的方式是构建一个基础设施,满足开发人员手工制作 Agents 网络的需求。随着时间推移,前沿模型将引导更多的工作流程,开发人员可以专注于产品和数据。
有人说,在模型成熟之前,构建应用仿佛在流沙上搭建城堡,而这些基础设施可能为应用或代理创建者提供了一层缓冲带,用于灵活适配并保持底层基础设施的相对稳定和持续迭代。
AI Agent Infra 现状
整体来说,目前 AI Agent 技术栈分为平台、记忆、规划与编排、执行和应用 5 个板块,我们将通过后文逐一介绍。
AI Agent 分层概念图
01
平台层
Agent 开发框架
开发框架是用于构建、部署和管理 agent 综合平台。提供模块化的组件、集成接口和工作流设计,简化了开发者创建复杂AI应用的过程。支持数据处理、任务调度、上下文管理等功能,帮助实现高效、安全和可扩展的 AI 解决方案。
LangChain
LangChain 是一个围绕 LLM 构建的框架,适用于构建聊天机器人、生成式问答( GQA ) 、摘要等应用。
优势:多语言支持、模块化设计、丰富的组件和集成结构、完善的生态系统;
劣势:学习曲线陡峭、依赖外部 AI 服务和 API,可能增加集成和维护成本;
适合:多语言支持和模块化设计的应用开发;
LlamaIndex
LlamaIndex 前身为 GPT-Index,是一个创新的数据框架,旨在简化外部知识库和大型语言模型的集成,包括各种文件格式,例如 PDF 和 PowerPoint,以及 Notion 和 Slack 等应用程序,甚至 Postgres 和 MongoDB 等数据库。
LlamaIndex
优势:数据检索方面深度优化、支持多种数据结构;
劣势:功能单一、社区和资源支持相对较少;
适合:数据索引和检索优化场景;
Semantic Kernel
Semantic Kernel 是一个集成了 OpenAI、Azure OpenAI、Huggingface的SDK,特别之处在于它能够自动与 AI 协调插件,借助 Semantic Kernel 规划器,实现用户独特目标的计划。
Semantic Kernel
优势:企业级支持、强大的自动化和扩展性,通过插件和计划生成器执行计划;
劣势:初始设置复杂、依赖微软生态;
适合:企业级应用,需高度可扩展性和稳定性的场景;
Griptape
Griptape 是一个模块化 Python 框架,用于构建 AI 驱动的应用程序,包含结构、记忆、任务、工具等多个模块。
优势:结构化工作流确保操作的可预测性和可靠性、模块化设计、安全和性能优化好;
劣势:初始学习曲线较陡、社区和资源支持较少;
适合:构建复杂 AI 工作流和代理,注重可预测性、安全性和性能的场景;
Agent 托管
Agent Hosting 是指在服务器或云基础设施上部署