LLM 记忆系统深度解析：从上下文窗口到多层架构的突破与演进

最新推荐文章于 2025-12-04 15:24:59 发布

原创最新推荐文章于 2025-12-04 15:24:59 发布 · 571 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#架构 #人工智能 #深度学习

LLM的记忆系统并非单一的机制，而是由上下文窗口作为工作记忆，结合RAG实现长期记忆，通过提示压缩优化工作记忆，并借助多层记忆系统整合短期和长期记忆的复杂架构。

在与大型语言模型（LLMs）交互时，我们常常会产生一种它们具备智能和记忆能力的错觉。然而，这种直觉掩盖了一个基本的工程现实：从核心来看，LLMs是无状态的，每个输入都是被独立处理的。如果想要构建一个能够进行连贯对话或调用公司知识库的LLM应用程序，就必须围绕模型设计一个复杂的记忆系统。本文将详细阐述这一架构——从LLM有限的工作记忆，到能让其获取海量、持久且最新知识的先进系统。核心观点很简单：构建强大的LLM应用程序，首要任务是打造一个稳健的记忆系统。

LLM的工作记忆：上下文窗口

LLM维持即时上下文最直接的方式是通过其上下文窗口。这是一个定义好的输入大小，以 tokens（子词单元）为计量单位，模型可以在一次调用中处理这些输入。在多轮对话中，系统会将之前的对话历史添加到用户当前的查询前面。然后，LLM 对这个拼接后的输入进行处理，从而生成与当前讨论上下文相关的回应。

例如，谷歌的 Gemini 2.5 Pro 提供了 100 万个 tokens 的上下文窗口，不久后还将支持 200 万个 tokens。这一容量可以容纳海量信息，相当于多部小说或庞大的代码库，使模型能够在单一输入中进行复杂的长程推理。

然而，这种机制虽为基础，却存在一些关键限制，使其不足以支撑生产级别的应用程序。

首先是有限的容量与信息淘汰问题。随着对话历史的不断扩展，系统必须采用淘汰策略来丢弃较旧的 tokens，这不可避免地会导致信息丢失，阻碍长时间的交互。就像我们的短期记忆容量有限，当新的信息不断涌入，旧的信息就会被挤出去，无法再被完整回忆起来。在LLM的交互中也是如此，长时间的对话会让早期重要的信息因为tokens数量的限制而被舍弃，影响对话的连贯性和准确性。

其次是计算复杂性与成本问题。标准 Transformer 模型中注意力机制的计算成本以 O(N²) 的规模增长。因此，随着工作记忆容量的增大，推理的运营成本和延迟会高到令人望而却步。这意味着如果我们想要让LLM处理更多的信息，就需要投入更多的计算资源，不仅会增加经济成本，还会让用户等待更长的时间才能得到回应，严重影响用户体验。

再者是位置偏差（“迷失在中间”）问题。实证研究表明，对于位于极长上下文窗口正中间的信息，LLMs的性能会显著下降。这种现象通常被称为“迷失在中间”问题，它揭示了一种“U 形”性能曲线，即模型往往更关注输入序列开头和结尾的信息。这意味着仅仅向大的上下文窗口中添加更多数据，并不能保证模型能有效利用所有相关信息。这是 Nelson F. Liu 等人在 2023 年发表的题为《迷失在中间：语言模型如何使用长上下文》的论文中的一个关键发现。比如在一份冗长的报告中，中间部分的关键数据可能会被LLM忽略，导致生成的回应遗漏重要信息。

最后是静态知识与动态现实不匹配问题。LLM 的内在知识来源于其静态的训练数据集。上下文窗口可以携带一些新信息，但无法用实时数据、公司特定信息或个人历史更新模型的核心知识库。在这个信息快速更新的时代，LLM的训练数据一旦固定，就无法及时反映最新的事件、政策变化等，这极大地限制了LLM在需要实时信息场景中的应用。

这些限制使得我们必须构建一个分层的记忆架构，为LLM提供持久的长期记忆。

用于持久高效记忆的先进架构

要构建一个稳健的LLM应用程序，需要实施一些架构模式来管理LLM即时上下文窗口之外的记忆。这些系统提供持久的长期记忆，并优化有限工作记忆的使用。

通过检索增强生成（RAG）实现长期记忆

如果说上下文窗口是LLM的工作记忆，那么检索增强生成（RAG）就是它的长期记忆。RAG通过从外部不断更新的知识库中检索相关信息，增强LLM的生成能力。这使得LLM应用程序能够访问公司维基、实时数据或个人历史，而无需记住所有这些内容。

这个过程通常包括以下几个步骤。第一步是数据摄入和嵌入。专有数据被分割成块，并转换为数值嵌入。就像我们把书本中的知识分门别类地存储在大脑中，方便以后提取一样，将数据分割成块并进行嵌入处理，能让LLM更高效地检索和利用信息。

第二步是向量数据库存储。这些嵌入被存储在专门的向量数据库中。向量数据库就像一个高效的图书馆，将各种信息按照特定的规则进行存储，便于快速查找。

第三步是检索过程。用户的查询被嵌入，然后通过相似性搜索从数据库中检索出最相关的数据块。当我们向LLM提问时，它就像在图书馆中根据关键词查找相关书籍一样，从向量数据库中找到与问题最相关的信息。

第四步是上下文增强和生成。只有这些高度相关的片段会被附加到提示中，使LLM的回应基于具体、实时且可验证的信息。这确保了LLM生成的内容更加准确、可靠，有坚实的信息支撑。

RAG提高了事实准确性，提供了获取最新信息的途径，为大型知识库提供了可扩展性，并通过引用提高了透明度。在很多领域，如客服、医疗咨询等，准确性至关重要，RAG的应用能有效减少错误信息的输出。

提示压缩：优化工作记忆

即使有了RAG，上下文窗口仍然是一种有限的资源。提示压缩是一种在提示（包括指令、检索到的上下文和对话历史）到达LLM之前，智能地减少其token数量的技术。

其核心思想是从输入中识别并移除冗余或信息量较少的tokens，同时保留基本含义和意图。蒋等人的论文《LLMLingua：为大型语言模型的加速推理压缩提示》可能是第一篇专门探讨大型语言模型提示压缩的研究论文。LLMLingua使用一个较小的、训练良好的语言模型（如GPT-2或LLaMA）来识别并移除对更大模型理解来说语义不太重要的tokens。这种方法引入了使用困惑度来过滤tokens的概念，并已显示出令人印象深刻的结果，在实现高达20倍压缩的同时，保留了原始提示在推理和上下文学习等任务中的能力。

简单来说，困惑度是衡量语言模型对一系列单词的“惊讶”或“困惑”程度的指标。一个高度可预测的token（低困惑度）添加的新信息很少；一个令人惊讶的token（高困惑度）则添加了很多新信息。本质上，困惑度是一个token为序列提供多少信息的代理指标。这种方法通过减少token使用量和成本、提高推理速度，并确保关键信息在可用限制内，直接解决了上下文窗口的局限性。就像我们在写文章时会精简语言，去掉不必要的修饰词，只保留核心内容一样，提示压缩能让LLM在有限的上下文窗口内处理更多关键信息。

多层记忆系统：结合短期和长期记忆

对于最复杂的应用程序，结合短期和长期记忆的架构至关重要。这是一种分层记忆形式，其中上下文窗口作为工作记忆，容纳即时对话和最关键的检索信息；向量数据库（RAG）作为长期记忆，提供庞大、可搜索且持久的知识存储；还有一个系统组件负责协调流程，决定哪些信息需要主动保存在工作记忆中，哪些可以被分页到长期记忆中，只在需要时才检索。

这种多层方法使LLM应用程序既能具备丰富的知识，又能保持对话的连贯性，克服了任何单一记忆系统的局限性。多层记忆系统的灵感来源于人类记忆的组织方式，人类有用于短期、长期和工作记忆的不同但相互关联的系统。Joon Sung Park等人的研究论文《生成代理：人类行为的交互式模拟》引用了人类认知心理学，作为他们创建具有观察、反思和长期存储不同层次系统的灵感来源。人类在处理信息时，会将短期记忆中的重要信息转化为长期记忆，在需要时再提取出来，多层记忆系统正是借鉴了这一原理，让LLM能更高效地管理和利用信息。

综上所述，LLM的记忆系统并非单一的机制，而是由上下文窗口作为工作记忆，结合RAG实现长期记忆，通过提示压缩优化工作记忆，并借助多层记忆系统整合短期和长期记忆的复杂架构。这些组件相互协作，共同支撑起LLM应用程序的强大功能，使其能够在各种场景中提供准确、连贯且及时的回应。随着技术的不断发展，相信LLM的记忆系统会更加完善，为我们带来更多的便利和可能。