【Cradle 源码解析五】记忆的艺术：向量存储与长短期记忆管理-优快云博客

前言

在前几篇中，我们的 Agent 已经具备了身体（架构）、眼睛（视觉）、大脑（推理）和双手（执行）。但如果它记不住 5 分钟前刚做过什么，或者忘记了最初的任务目标，那么它在《荒野大镖客 2》里永远走不出新手村。

LLM 本质上是无状态 (Stateless) 的。为了让 Agent 拥有连贯的行为，Cradle 设计了一套完善的 Memory 系统，模拟了人类的 短期记忆 (Short-term) 和 长期记忆 (Long-term) 机制。

本篇将深入 cradle/memory/ 模块，剖析它是如何利用 向量数据库 和 RAG (检索增强生成) 技术，让 Agent 真正“拥有过去”。

1. 记忆的分层架构

在阅读源码时，你会发现 Cradle 的记忆不是一锅粥，而是分层的。这与认知心理学中的模型非常相似：

短期记忆 (Short-term Memory)：
- 作用：存储最近 N 步的操作历史。
- 位置：直接存在 LLM 的 Context Window (Prompt) 中。
- 形式：[(Obs_t-1, Action_t-1), (Obs_t, Action_t), ...]
长期记忆 (Long-term Memory)：
- 作用：存储过去的成功经验、游戏知识、地图信息。
- 位置：外部向量数据库 (Vector Database)。
- 形式：Embedding(Text Description) -> Vector Index

2. 短期记忆：滑动窗口与 Context 管理

由于 GPT-4 的 Context Window 是昂贵且有限的，Cradle 不能把几个小时的游戏日志全塞进去。

在 cradle/agent/agent.py 的主循环中，Cradle 维护了一个有限长度的队列（通常是最近 5-10 步）。

Python

# 伪代码示意：短期记忆管理
class Agent:
    def __init__(self, history_len=10):
        self.short_term_memory = collections.deque(maxlen=history_len)

    def update_history(self, reasoning, action, result):
        # 将这一步的“思考-行动-结果”三元组存入
        entry = {
            "step": self.current_step,
            "reasoning": reasoning,
            "action": action,
            "feedback": result  # 比如 action 是否执行成功的 flag
        }
        self.short_term_memory.append(entry)
    
    def construct_prompt(self):
        # 组装 Prompt 时，只把这 10 步历史转成文本
        history_text = format_history(self.short_term_memory)
        return f"Recent History:\n{history_text}"

关键点：防止循环死锁 (Loop Deadlock)。如果 Agent 发现自己在最近 5 步一直在重复“撞墙 -> 后退 -> 撞墙”，短期记忆会立刻暴露这个问题，触发 LLM 进行 Self-Reflection（反思）并改变策略。

3. 长期记忆与 RAG：向量检索的魔法

这是 Cradle 能够越玩越聪明的核心。随着游戏时间的增加，数据量会爆炸。Cradle 使用 Embedding (嵌入) 技术将文本转化为向量，并利用 RAG 技术按需检索。

在 cradle/memory/vector_store.py 中，我们可以看到类似 ChromaDB 或 FAISS 的封装。

3.1 技能与知识检索 (Skill & Knowledge Retrieval)

当 Agent 接到任务“去商店买枪”时，它不需要把所有游戏的攻略都加载进内存。

检索流程：

Query: "How to buy a gun in RDR2?" / "Current Task: Buy Gun"
Embedding: 将 Query 转化为向量。
Search: 在数据库中查找与该向量余弦相似度最高的 K 条记录。
Result: 检索到相关技能说明（比如“与店主对话按右键”）。
Inject: 将这 K 条技能说明插入 Prompt 的 Context 部分。

3.2 情景记忆 (Episodic Memory)

如果 Agent 以前来过这个场景并成功完成过任务，它会把当时的成功路径存入长期记忆。

当它再次遇到相似场景（比如又是这个 UI 界面）时，RAG 机制会告诉它：“嘿，上次你在这种界面下，点击了右下角的按钮就成功了。”

4. 避免“目标遗忘”：Goal Drift 的克星

在长达数小时的任务中，LLM 很容易出现 Goal Drift (目标漂移)——做着做着就忘了最初是要干嘛，开始被路边的野花吸引。

Cradle 在源码层面做了两层锚定：

Global Goal (全局目标)：

在 config 或 agent 初始化时设定，作为一个常量 (Constant)，在每一轮 Prompt 的最顶端（System Prompt）强制重复。

"无论发生什么，你的终极目标都是：完成主线任务‘第二章：美国田园诗’。"
Sub-goal Stack (子目标栈)：

Cradle 往往维护一个简单的栈结构。
- Global: 买枪
- Current Sub: 骑马去镇上
- Current Atomic: 按 W 上马
只有当子目标完成后，才会 Pop 出栈，Agent 永远聚焦于栈顶任务，从而保证执行逻辑的线性与收敛。

5. 源码实战：Memory 接口定义

在 cradle/memory/base.py 中，我们通常能看到这样的抽象接口定义，方便开发者替换不同的后端（比如从本地 JSON 换成云端的 Pinecone）：

Python

class MemoryProvider(ABC):
    @abstractmethod
    def add(self, content: str, metadata: dict):
        """Embedding content and store it."""
        pass

    @abstractmethod
    def search(self, query: str, top_k: int = 3):
        """Retrieve relevant memories based on similarity."""
        pass
        
    @abstractmethod
    def load(self, path: str):
        """Load memory from disk (Persistence)."""
        pass