【大模型】让AI不仅能说还能做！详解AI Agent的核心架构

原创

已于 2024-10-25 10:46:11 修改 · 1k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#1024程序员节

于 2024-10-24 21:54:15 首次发布

引言：认识AI Agent

在当前AI领域，传统的大语言模型（如GPT、Claude等）展现出了强大的语言理解和生成能力。但这些模型有一个根本性的限制：它们只能进行文字对话，给出建议和答案，却无法真正执行任何实际任务。例如：

当你让传统大模型查询实时天气时，它只能告诉你"我可以告诉你如何查询天气"
当你请求获取最新新闻时，它只能回答"我的知识可能不是最新的"
当你需要处理数据文件时，它只能描述处理步骤，而不能实际操作文件

这就是为什么我们需要AI Agent。AI Agent通过将大语言模型与各种工具和执行环境相结合，真正打破了"只能对话"的限制，使AI系统能够：

调用API获取实时信息
执行文件操作和数据处理
进行网络搜索
与其他系统交互
完成实际的任务执行

AI Agent的三大核心组件

在这里插入图片描述

让我们通过一个不到100行实际的示例程序来理解AI Agent的架构，读者可以在文章末尾看到完整的程序代码：

1. 模型组件（Model）

模型是AI Agent的"大脑"，负责理解用户输入并做出决策。在我们的示例中，使用了Azure OpenAI的模型：

from langchain_openai import AzureChatOpenAI

# Initialize Azure OpenAI model
model = AzureChatOpenAI(
    azure_endpoint=azure_endpoint,
    api_version=azure_api_version,
    deployment_name=azure_deployment_name,
    api_key=azure_api_key,
)

模型的主要职责：

理解用户的自然语言输入
判断是否需要使用工具
解析工具返回的结果
生成合适的回复

2. 工具组件（Tools）

工具是AI Agent与外界交互的接口。在示例中，我们使用了Tavily搜索工具：

from langchain_community.tools.tavily_search import TavilySearchResults

# Initialize Tavily search
search = TavilySearchResults(max_results=2)

# Create tools list
tools = [search]

工具的特点：

功能单一明确
有标准化的输入输出接口
可以动态添加和组合
支持异步操作

3. 代理执行器（Agent Executor）

执行器是连接模型和工具的核心组件，它使用ReAct（Reasoning and Acting）范式来协调整个系统：

from langgraph.prebuilt import create_react_agent
from langgraph.checkpoint.memory import MemorySaver

memory = MemorySaver()
agent_executor = create_react_agent(model, tools, checkpointer=memory)