大白话解析Agent 的五大核心能力：记忆、推理、工具调用、规划、学习

最新推荐文章于 2025-10-21 11:53:18 发布

原创最新推荐文章于 2025-10-21 11:53:18 发布 · 1.2k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #人工智能 #python #llama #gpt

AI 同时被 2 个专栏收录

3 篇文章

订阅专栏

Agent

3 篇文章

订阅专栏

在上一篇中，我们构建了一个能“行动”的最小化 Agent。现在，我们将拆解一个成熟 Agent 所需具备的五大核心能力，深入理解其内部的“五脏六腑”

Agent 的五大核心能力解析：记忆、推理、工具调用、规划、学习

目标： 建立对 Agent 组成模块的全面理解。

如果你把上一篇文章的最小 Agent 比作一个刚学会使用锤子（单一工具）的学徒，那么本文将带你探索如何将这个学徒培养成一个能够记忆经验、逻辑推理、熟练运用全套工具箱、自主规划项目，甚至能从失败中学习的宗师级工匠。

这五大能力——工具调用、记忆、推理、规划、学习——并非孤立存在，它们相互交织、彼此成就，共同构成了高级 Agent 的智能基石。让我们首先通过一个系统分层图来建立宏观认知：

+------------------------------------------------------+
|                      Agent System                    |
|                                                      |
|  +------------------+     +------------------------+ |
|  |     Planner      | --> |    Reasoning (LLM)     | |
|  | (任务规划模块)   |     |      (大脑核心)        | |
|  +------------------+     +----------+-------------+ |
|        ^                      ^      |      |        |
|        |                      |      |      |        |
|        |                      |      v      v        |
|  +-----+------------+     +---+----+ +-----+------+ |
|  |      Memory      | <-> |   Tool Use & Execution  | |
|  | (知识记忆模块)   |     |      (与世界交互)       | |
|  +------------------+     +-------------------------+ |
|        ^                                             |
|        |                                             |
|  +-----+------------+                                |
|  |   Learning Loop  |                                |
|  | (学习与反思模块) |                                |
|  +------------------+                                |
|                                                      |
+------------------------------------------------------+

在这个模型中：

LLM (Reasoning) 处于绝对核心，是思考和决策的中枢。
Planner 接收复杂任务，将其分解为可执行的步骤，交由核心处理。
Tool Use 是核心与外部世界交互的“手臂”。
Memory 为核心提供上下文和长期知识，并记录交互历史。
Learning 模块则观察整个系统的运作，进行反思和迭代，反哺 Memory 和 Planner。

现在，让我们逐一深入这些模块的细节。

1. 工具调用 (Tool Use)：Agent 的“手与脚”

工具调用是 Agent 将其数字智能转化为物理或数字世界影响力的唯一途径。它解决了 LLM 本身作为一个“黑盒”无法与外部环境交互的根本问题。

深入细节：

我们在上一篇中已经用 OpenAI 的 Function Calling 实现了基础的工具调用。但一个强大的工具系统远不止于此。

工具的泛化： “工具”是一个极其宽泛的概念。它可以是：
- API 调用： 查询天气、获取股价、发送邮件、操作 GitHub 仓库。
- 数据库交互： 执行 SQL 或 NoSQL 查询，对企业内部知识库进行读写。
- 代码执行： 运行一个 Python 解释器来执行动态生成的代码，进行复杂计算或数据分析。
- 调用其他模型： 一个 Agent 可以调用专门的图像生成模型（如 DALL-E 3）、语音识别模型或另一个专门领域的 LLM。
- 物理世界交互： 在机器人技术中，一个工具可能直接对应一个机械臂的动作（pick_up(object)）或无人机的飞行指令（fly_to(coordinates)）。
工具描述的重要性： LLM 能否在正确的时间选择正确的工具，完全依赖于我们为工具提供的“说明书”，也就是 Function Calling 中的 description 字段。一份好的说明书应该：
- 清晰无歧义： 准确描述工具的功能和副作用（例如，“这个函数会向用户发送一封邮件，请在确认后使用”）。
- 详述参数： 对每个参数的含义、格式、可选值进行详细说明。
- 提供示例： 在描述中加入简单的使用示例，能极大地帮助 LLM 理解。

代码示例：需要多步调用的场景

想象一个场景，用户问：“帮我看看苹果公司（AAPL）昨天的收盘价比谷歌（GOOGL）高还是低？”。这需要一个简单的、隐式的两步计划。

import yfinance as yf # 需要安装 yfinance: pip install yfinance
import json

# --- Tool Definitions ---
def get_stock_price(symbol: str) -> float:
    """
    获取指定股票代码的最新收盘价。

    Args:
        symbol (str): 股票代码，例如 'AAPL' 或 'GOOGL'。
    
    Returns:
        float: 股票的最新收盘价。
    """
    try:
        ticker = yf.Ticker(symbol)
        # 获取最近一天的数据
        hist = ticker.history(period="1d")
        if not hist.empty:
            return round(hist['Close'].iloc[0], 2)
        else:
            return 0.0
    except Exception as e:
        # 在真实应用中，需要更完善的错误处理
        print(f"Error fetching stock price for {symbol}: {e}")
        return 0.0

# --- Agent Core Logic (简化版 ReAct 循环) ---
# ... (省略 OpenAI 客户端初始化和 tools JSON 定义) ...

# 假设 LLM 在第一轮决策后，生成了如下的 tool_calls
# (这是模拟，真实场景由 OpenAI API 返回)
simulated_tool_calls = [
    {"function": {"name": "get_stock_price", "arguments": '{"symbol": "AAPL"}'}},
    {"function": {"name": "get_stock_price", "arguments": '{"symbol": "GOOGL"}'}}
]

# --- 执行循环 ---
tool_results = []
available_tools = {"get_stock_price": get_stock_price}

for tool_call in simulated_tool_calls:
    func_name = tool_call["function"]["name"]
    func_args = json.loads(tool_call["function"]["arguments"])
    
    # 执行工具
    result = available_tools[func_name](**func_args)
    print(f"Executed: {func_name}({func_args}) -> Result: {result}")
    
    # 收集结果，准备给 LLM 总结
    tool_results.append({
        "tool_call_id": "call_" + func_name.lower() + "_" + func_args['symbol'].lower(), # 模拟一个 ID
        "role": "tool",
        "name": func_name,
        "content": str(result) # 结果必须是字符串
    })

# --- 第二轮调用 LLM 进行总结 ---
# messages 会包含用户问题，第一次的 LLM 回复（带 tool_calls），以及所有的 tool_results
# final_response = client.chat.completions.create(...)
# LLM 会看到 {"role": "tool", "name": "get_stock_price", "content": "172.28"} 等信息
# 然后总结出："苹果昨天的收盘价是 $172.28，谷歌的收盘价是 $180.79，所以谷歌的价格更高。"

潜在问题与挑战：

工具冲突与选择困难： 当两个工具功能相似时，LLM 可能会混淆。
失败处理与重试： API 可能超时，参数可能无效。一个健壮的 Agent 需要有错误捕获、理解错误信息并进行重试或选择替代方案的能力。
安全性： 赋予 Agent 执行代码或操作数据库的能力是极其危险的。必须设置严格的权限、沙箱环境和人工审核环节。
成本与配额： 频繁调用付费 API 会迅速产生高昂费用。需要有成本控制和监控机制。

2. 知识记忆 (Memory)：Agent 的“经验之书”

没有记忆的 Agent 是“金鱼”，每次对话都是一次冷启动。记忆赋予了 Agent 上下文感知、个性化和持续学习的能力。

深入细节：

人类记忆是复杂的，我们可以借鉴其分类来设计 Agent 的记忆系统。

短期记忆 (Short-term Memory):
- 概念： 正在进行的对话的上下文。它是 Agent 的“工作内存”。
- 实现： 最常见的实现就是 OpenAI API 调用中的 messages 列表。通过将最近的对话历史（用户提问、Agent 回答、工具调用记录）全部传给模型，LLM 就能“记住”刚刚发生了什么。
- 挑战： 上下文窗口限制。像 GPT-4 Turbo 有 128k 的窗口，但对于超长对话或复杂任务，窗口依然会被填满。届时，必须采用窗口截断（粗暴地丢弃旧消息）或摘要化（用另一个 LLM 调用将早期对话压缩成摘要）等策略。
长期记忆 (Long-term Memory):
- 概念： 跨对话、持久化的知识存储。它让 Agent 能记住用户的偏好、过去项目的经验、世界的特定事实等。
- 实现： 这通常通过 RAG (Retrieval-Augmented Generation) 范式实现。
  - 存储 (Storage): 将信息（如对话日志、文档、用户画像）通过 Embedding 模型转化为高维向量，存储在向量数据库（如 Pinecone, Chroma, FAISS）中。
  - 检索 (Retrieval): 当用户提出新问题时，先将问题也转化为向量，然后在向量数据库中进行相似度搜索，找出最相关的几段历史信息或知识。
  - 增强 (Augmentation): 将检索到的信息，作为额外的上下文（“根据你记得的以下信息：…”），与用户的原始问题一起，塞入提示词，再提交给 LLM。
- 记忆类型：
  - 情节记忆 (Episodic): 对话历史的记录。“我们上次聊到哪里了？”
  - 语义记忆 (Semantic): 关于世界的事实知识。“我的项目截止日期是下周五。”
  - 程序性记忆 (Procedural): 关于如何完成任务的步骤和策略。这与后面的“学习”模块紧密相关。

代码示例：模拟 RAG 实现的长期记忆

我们将用一个简单的 Python 字典来模拟向量数据库。

from openai import OpenAI
import numpy as np

# --- 模拟组件 ---
client = OpenAI() # 假设已配置 API Key
long_term_memory = {} # 用字典模拟向量数据库 { "text_chunk": vector }

def get_embedding(text):
    # 真实的 Embedding 获取
    response = client.embeddings.create(input=text, model="text-embedding-3-small")
    return response.data[0].embedding

def store_memory(text):
    # 存入记忆
    vector = get_embedding(text)
    long_term_memory[text] = np.array(vector)
    print(f"Stored memory: '{text}'")

def retrieve_memory(query_text, top_k=1):
    # 检索记忆
    if not long_term_memory:
        return ""
    
    query_vector = np.array(get_embedding(query_text))
    
    # 计算余弦相似度
    similarities = {
        text: np.dot(vector, query_vector) / (np.linalg.norm(vector) * np.linalg.norm(query_vector))
        for text, vector in long_term_memory.items()
    }
    
    # 找到最相似的 k 个
    sorted_memories = sorted(similarities.items(), key=lambda item: item[1], reverse=True)
    
    relevant_context = " ".join([mem[0] for mem in sorted_memories[:top_k]])
    print(f"Retrieved context: '{relevant_context}'")
    return relevant_context

# --- 使用流程 ---
# 1. 存储一些长期记忆
store_memory("我的狗叫'土豆'，它是一只金毛。")
store_memory("我最喜欢的编程语言是 Python。")

# 2. 用户提出了一个模糊的问题
user_prompt = "我的宠物怎么样了？"

# 3. 从长期记忆中检索相关上下文
context = retrieve_memory(user_prompt)

# 4. 构建增强的提示词
augmented_prompt = f"""
根据你所知道的以下背景信息来回答问题：
---
{context}
---
用户的问题是：{user_prompt}
"""

# 5. 调用 LLM
# response = client.chat.completions.create(...)
# LLM 会看到 "我的狗叫'土豆'..." 这条信息，从而回答：“你是说土豆吗？它是一只可爱的金毛。”
# 而不是反问：“你的宠物是什么？”

潜在问题与挑战：

检索质量： RAG 的成败高度依赖于能否检索到真正相关的信息。错误的检索会引入噪声，误导 LLM。
记忆更新与遗忘： 如何更新或删除过时的记忆？如何处理矛盾的信息？设计一个“遗忘”机制和“真理”系统是复杂的。
隐私与安全： 长期记忆中可能包含大量敏感个人信息，其存储和访问必须有严格的加密和权限控制。

3. 推理 (Reasoning)：Agent 的“思考链条”

推理是 LLM 的核心能力，是 Agent 智能的“CPU”。它指的是根据现有信息（用户输入、记忆、工具结果）推断出结论、意图和下一步行动的能力。

深入细节：

近年来，研究者们发现，通过特定的提示工程（Prompt Engineering）技巧，可以显著激发和引导 LLM 的推理能力。

思维链 (Chain-of-Thought, CoT): 这是最著名也最有效的技巧之一。与其直接要求 LLM 给出答案，不如命令它“一步一步地思考”（Let’s think step by step）。这种方式引导 LLM 输出一个详细的、有逻辑的推理过程，然后再给出最终答案。这不仅大大提高了复杂问题（如数学题、逻辑题）的准确率，也让 Agent 的决策过程变得透明和可解释。
ReAct (Reason + Act): 这是 Agent 领域一个里程碑式的思想。它将 CoT 与工具调用结合起来，形成一个“思考 -> 行动 -> 观察”的循环。
1. Reason: LLM 首先基于当前状态进行推理，生成一个“想法”（Thought），分析现在的情况以及下一步应该做什么。
2. Act: 基于这个想法，LLM 决定调用一个具体的工具（Action），并生成调用所需的参数。
3. Observation: Agent 执行该工具，并将结果（Observation）返回。这个结果被送回给 LLM，作为下一次循环的输入。
  这个循环不断重复，直到任务完成。

代码示例：模拟 ReAct 循环的伪代码

def react_loop(user_goal):
    # 初始化循环
    max_turns = 5
    turn_count = 0
    observation = f"用户目标是: {user_goal}"
    
    while turn_count < max_turns:
        # 构建 ReAct 风格的提示词
        prompt = f"""
        你是一个智能助手，你需要通过“思考->行动->观察”的循环来完成用户目标。
        
        你可用的工具有: [get_stock_price, ...]。
        
        上一步的观察结果是:
        {observation}
        
        现在，请生成你的下一步“思考”和“行动”。
        思考: (在这里写下你的分析和计划)
        行动: (在这里写下你要调用的工具，格式为 JSON，如果任务完成则写 "FINISH")
        """
        
        # --- 1. Reason & Act ---
        # llm_response = client.chat.completions.create(...)
        # 假设 LLM 返回如下文本
        llm_response_text = """
        思考: 用户想比较两家公司的股价。我需要先获取苹果(AAPL)的股价，再获取谷歌(GOOGL)的股价，然后进行比较。我先获取苹果的。
        行动: { "tool_name": "get_stock_price", "parameters": { "symbol": "AAPL" } }
        """
        
        # 解析 LLM 的响应
        thought = parse_thought(llm_response_text)
        action = parse_action(llm_response_text)
        print(f"Thought: {thought}")

        if action["tool_name"] == "FINISH":
            print("任务完成。")
            break

        # --- 2. Observation ---
        tool_result = execute_tool(action["tool_name"], action["parameters"])
        observation = f"执行 {action['tool_name']} 后的结果是: {tool_result}"
        print(f"Observation: {observation}\n")

        turn_count += 1

潜在问题与挑战：

幻觉 (Hallucination): LLM 可能在推理过程中“脑补”出错误的事实或逻辑链条，导致整个决策偏离轨道。
陷入循环： 在某些情况下，Agent 可能会在几个状态之间反复横跳，无法取得进展。需要有熔断机制。
推理深度与广度： 对于需要深远预见性的任务，简单的 CoT 或 ReAct 可能不够，需要更复杂的规划能力。

4. 规划 (Planning)：Agent 的“任务分解师”

如果推理是解决“下一步做什么”的微观决策，那么规划就是解决“如何分步完成一个复杂目标”的宏观蓝图。

深入细节：

一个简单的 ReAct 循环在每一步都是“贪心”的，它只看眼前的最佳选择。但对于复杂任务（“帮我规划下周去上海的出差行程，包括订机票、酒店，并安排三家客户的拜访”），Agent 必须具备任务分解和长期规划的能力。

任务分解 (Task Decomposition): 这是规划的第一步。Agent（或者说，一个专门的“规划 LLM”）需要将一个模糊的、高层次的目标，分解成一个具体的、有序的子任务列表。
计划维持与动态调整 (Replanning): 世界是变化的。预订机票的工具可能失败，客户可能临时改变时间。一个高级的规划器不仅要能生成计划，还要能在执行过程中持续监控状态，当某个步骤失败或出现意外情况时，能够动态地修改或重新生成后续的计划。

代码示例：使用 LLM 作为规划器

def create_plan(user_goal):
    """使用 LLM 将高层目标分解为可执行步骤。"""
    
    planner_prompt = f"""
    你是一个任务规划专家。请将以下用户的高层目标分解成一个清晰、有序的、可执行的 JSON 步骤列表。
    每个步骤都应该是一个独立的、可以通过调用工具来完成的具体行动。

    用户目标: "{user_goal}"

    请输出一个 JSON 数组，其中每个对象包含 "step" (序号) 和 "action_description" (行动描述)。
    """
    
    # response = client.chat.completions.create(...)
    # 假设 LLM 返回如下 JSON 字符串
    plan_json_str = """
    [
        {"step": 1, "action_description": "查询下周一从当前城市到上海的可用航班"},
        {"step": 2, "action_description": "根据航班时间，在上海市区搜索评分高于4.5星的酒店"},
        {"step": 3, "action_description": "将航班和酒店选项汇总，并请求用户确认"},
        {"step": 4, "action_description": "根据用户选择，预订机票和酒店"},
        {"step": 5, "action_description": "联系客户A、B、C，协调并安排会议时间"},
        {"step": 6, "action_description": "生成最终行程单，包含航班、酒店和会议安排"}
    ]
    """
    
    return json.loads(plan_json_str)

# --- 使用流程 ---
user_complex_goal = "帮我规划下周去上海的出差行程，包括订机票、酒店，并安排三家客户的拜访"

# 1. 生成计划
task_plan = create_plan(user_complex_goal)
print("--- Generated Plan ---")
for task in task_plan:
    print(f"Step {task['step']}: {task['action_description']}")

# 2. 依次执行计划
# 这里的 Agent 主循环会遍历这个 plan，
# 对每个 "action_description" 进行推理和工具调用。
# for task in task_plan:
#     execute_task(task['action_description']) # execute_task 内部是 ReAct 循环

潜在问题与挑战：

计划的僵化： 一个预先生成的静态计划可能无法适应动态变化的环境。
错误传播： 计划中的第一步如果出错，可能会导致后续所有步骤都无法执行或产生错误结果。
资源权衡： 规划时需要考虑时间、成本、工具可用性等多种约束，这是一个复杂的优化问题。

5. 学习与反思 (Learning & Reflection)：Agent 的“自我进化”

这是通往真正自主智能的终极能力。一个 Agent 不仅要能完成任务，更要能从经验中学习，让自己下一次做得更好。

深入细节：

学习可以通过反思 (Reflection) 机制来实现。在完成一次任务（无论成功或失败）后，Agent 可以启动一个“复盘”流程。

自我反思： Agent 调动一个 LLM，让它审查整个任务的轨迹（包括所有的思考、行动、观察）。提示词可能是：“你刚刚执行了一个任务，这是完整的日志。请分析这次执行的效率和成功率。有没有更优的路径？哪个步骤是多余的？从这次经验中可以总结出什么可以用于未来的启发式规则？”
知识沉淀： 反思的结果——那些新总结出的“启发式规则”或“最佳实践”——需要被存储起来。它们会被存入长期记忆的“程序性记忆”区域。例如，Agent 可能会学到：“当查询天气时，如果用户没有指定城市，应优先调用 get_user_location() 工具，而不是直接询问用户。”
未来应用： 在未来的规划和推理中，这些沉淀下来的知识会被检索出来，优先影响 Agent 的决策，从而实现能力的迭代和进化。

代码示例：概念性的反思流程

def reflect_and_learn(task_log):
    """
    对任务日志进行反思，并生成可用于未来的知识。
    """
    
    reflection_prompt = f"""
    你是一个智能代理的批判性反思模块。
    以下是一次任务执行的完整日志：
    --- LOG START ---
    {task_log}
    --- LOG END ---

    请分析这次任务。
    1. 总结任务是否成功，以及效率如何。
    2. 找出执行过程中一个可以改进的关键点。
    3. 基于这个关键点，生成一条具体的、可用于未来任务的“启发式规则”(heuristic)。
    
    请以 JSON 格式返回你的分析，包含 "summary", "improvement_point", "heuristic" 三个字段。
    """
    
    # response = client.chat.completions.create(...)
    # 假设 LLM 返回
    reflection_result_str = """
    {
        "summary": "任务成功完成，但效率较低。为了获取用户位置，与用户进行了两次不必要的对话。",
        "improvement_point": "在开始查询需要地理位置的服务前，没有首先检查是否已知用户位置或主动获取位置。",
        "heuristic": "Rule: If a task requires a location and the user's location is unknown, the first action should be to call the `get_user_location` tool."
    }
    """
    
    reflection_result = json.loads(reflection_result_str)
    
    # 将学到的启发式规则存入长期记忆（程序性记忆）
    new_heuristic = reflection_result["heuristic"]
    store_procedural_memory(new_heuristic)
    
    return new_heuristic

def store_procedural_memory(heuristic_text):
    # 这可以是一个专门的文本文件或数据库表
    with open("procedural_memory.txt", "a") as f:
        f.write(heuristic_text + "\n")
    print(f"Learned new heuristic: {heuristic_text}")