LLM 记忆系统深度解析:从上下文窗口到多层架构的突破与演进

LLM的记忆系统并非单一的机制,而是由上下文窗口作为工作记忆,结合RAG实现长期记忆,通过提示压缩优化工作记忆,并借助多层记忆系统整合短期和长期记忆的复杂架构。

在与大型语言模型(LLMs)交互时,我们常常会产生一种它们具备智能和记忆能力的错觉。然而,这种直觉掩盖了一个基本的工程现实:从核心来看,LLMs是无状态的,每个输入都是被独立处理的。如果想要构建一个能够进行连贯对话或调用公司知识库的LLM应用程序,就必须围绕模型设计一个复杂的记忆系统。本文将详细阐述这一架构——从LLM有限的工作记忆,到能让其获取海量、持久且最新知识的先进系统。核心观点很简单:构建强大的LLM应用程序,首要任务是打造一个稳健的记忆系统。

LLM的工作记忆:上下文窗口

LLM维持即时上下文最直接的方式是通过其上下文窗口。这是一个定义好的输入大小,以 tokens(子词单元)为计量单位,模型可以在一次调用中处理这些输入。在多轮对话中,系统会将之前的对话历史添加到用户当前的查询前面。然后,LLM 对这个拼接后的输入进行处理,从而生成与当前讨论上下文相关的回应。

例如,谷歌的 Gemini 2.5 Pro 提供了 100 万个 tokens 的上下文窗口,不久后还将支持 200 万个 tokens。这一容量可以容纳海量信息,相当于多部小说或庞大的代码库,使模型能够在单一输入中进行复杂的长程推理。

然而,这种机制虽为基础,却存在一些关键限制,使其不足以支撑生产级别的应用程序。

首先是有限的容量与信息淘汰问题。随着对话历史的不断扩展,系统必须采用淘汰策略来丢弃较旧的 tokens,这不可避免地会导致信息丢失,阻碍长时间的交互。就像我们的短期记忆容量有限,当新的信息不断涌入,旧的信息就会被挤出去,无法再被完整回忆起来。在LLM的交互中也是如此,长时间的对话会让早期重要的信息因为tokens数量的限制而被舍弃,影响对话的连贯性和准确性。

其次是计算复杂性与成本问题。标准 Transformer 模型中注意力机制的计算成本以 O(N²) 的规模增长。因此,随着工作记忆容量的增大,推理的运营成本和延迟会高到令人望而却步。这意味着如果我们想要让LLM处理更多的信息,就需要投入更多的计算资源,不仅会增加经济成本,还会让用户等待更长的时间才能得到回应,严重影响用户体验。

再者是位置偏差(“迷失在中间”)问题。实证研究表明,对于位于极长上下文窗口正中间的信息,LLMs的性能会显著下降。这种现象通常被称为“迷失在中间”问题,它揭示了一种“U 形”性能曲线,即模型往往更关注输入序列开头和结尾的信息。这意味着仅仅向大的上下文窗口中添加更多数据,并不能保证模型能有效利用所有相关信息。这是 Nelson F. Liu 等人在 2023 年发表的题为《迷失在中间:语言模型如何使用长上下文》的论文中的一个关键发现。比如在一份冗长的报告中,中间部分的关键数据可能会被LLM忽略,导致生成的回应遗漏重要信息。

最后是静态知识与动态现实不匹配问题。LLM 的内在知识来源于其静态的训练数据集。上下文窗口可以携带一些新信息,但无法用实时数据、公司特定信息或个人历史更新模型的核心知识库。在这个信息快速更新的时代,LLM的训练数据一旦固定,就无法及时反映最新的事件、政策变化等,这极大地限制了LLM在需要实时信息场景中的应用。

这些限制使得我们必须构建一个分层的记忆架构,为LLM提供持久的长期记忆。

用于持久高效记忆的先进架构

要构建一个稳健的LLM应用程序,需要实施一些架构模式来管理LLM即时上下文窗口之外的记忆。这些系统提供持久的长期记忆,并优化有限工作记忆的使用。

通过检索增强生成(RAG)实现长期记忆

如果说上下文窗口是LLM的工作记忆,那么检索增强生成(RAG)就是它的长期记忆。RAG通过从外部不断更新的知识库中检索相关信息,增强LLM的生成能力。这使得LLM应用程序能够访问公司维基、实时数据或个人历史,而无需记住所有这些内容。

这个过程通常包括以下几个步骤。第一步是数据摄入和嵌入。专有数据被分割成块,并转换为数值嵌入。就像我们把书本中的知识分门别类地存储在大脑中,方便以后提取一样,将数据分割成块并进行嵌入处理,能让LLM更高效地检索和利用信息。

第二步是向量数据库存储。这些嵌入被存储在专门的向量数据库中。向量数据库就像一个高效的图书馆,将各种信息按照特定的规则进行存储,便于快速查找。

第三步是检索过程。用户的查询被嵌入,然后通过相似性搜索从数据库中检索出最相关的数据块。当我们向LLM提问时,它就像在图书馆中根据关键词查找相关书籍一样,从向量数据库中找到与问题最相关的信息。

第四步是上下文增强和生成。只有这些高度相关的片段会被附加到提示中,使LLM的回应基于具体、实时且可验证的信息。这确保了LLM生成的内容更加准确、可靠,有坚实的信息支撑。

RAG提高了事实准确性,提供了获取最新信息的途径,为大型知识库提供了可扩展性,并通过引用提高了透明度。在很多领域,如客服、医疗咨询等,准确性至关重要,RAG的应用能有效减少错误信息的输出。

提示压缩:优化工作记忆

即使有了RAG,上下文窗口仍然是一种有限的资源。提示压缩是一种在提示(包括指令、检索到的上下文和对话历史)到达LLM之前,智能地减少其token数量的技术。

其核心思想是从输入中识别并移除冗余或信息量较少的tokens,同时保留基本含义和意图。蒋等人的论文《LLMLingua:为大型语言模型的加速推理压缩提示》可能是第一篇专门探讨大型语言模型提示压缩的研究论文。LLMLingua使用一个较小的、训练良好的语言模型(如GPT-2或LLaMA)来识别并移除对更大模型理解来说语义不太重要的tokens。这种方法引入了使用困惑度来过滤tokens的概念,并已显示出令人印象深刻的结果,在实现高达20倍压缩的同时,保留了原始提示在推理和上下文学习等任务中的能力。

简单来说,困惑度是衡量语言模型对一系列单词的“惊讶”或“困惑”程度的指标。一个高度可预测的token(低困惑度)添加的新信息很少;一个令人惊讶的token(高困惑度)则添加了很多新信息。本质上,困惑度是一个token为序列提供多少信息的代理指标。这种方法通过减少token使用量和成本、提高推理速度,并确保关键信息在可用限制内,直接解决了上下文窗口的局限性。就像我们在写文章时会精简语言,去掉不必要的修饰词,只保留核心内容一样,提示压缩能让LLM在有限的上下文窗口内处理更多关键信息。

多层记忆系统:结合短期和长期记忆

对于最复杂的应用程序,结合短期和长期记忆的架构至关重要。这是一种分层记忆形式,其中上下文窗口作为工作记忆,容纳即时对话和最关键的检索信息;向量数据库(RAG)作为长期记忆,提供庞大、可搜索且持久的知识存储;还有一个系统组件负责协调流程,决定哪些信息需要主动保存在工作记忆中,哪些可以被分页到长期记忆中,只在需要时才检索。

这种多层方法使LLM应用程序既能具备丰富的知识,又能保持对话的连贯性,克服了任何单一记忆系统的局限性。多层记忆系统的灵感来源于人类记忆的组织方式,人类有用于短期、长期和工作记忆的不同但相互关联的系统。Joon Sung Park等人的研究论文《生成代理:人类行为的交互式模拟》引用了人类认知心理学,作为他们创建具有观察、反思和长期存储不同层次系统的灵感来源。人类在处理信息时,会将短期记忆中的重要信息转化为长期记忆,在需要时再提取出来,多层记忆系统正是借鉴了这一原理,让LLM能更高效地管理和利用信息。

综上所述,LLM的记忆系统并非单一的机制,而是由上下文窗口作为工作记忆,结合RAG实现长期记忆,通过提示压缩优化工作记忆,并借助多层记忆系统整合短期和长期记忆的复杂架构。这些组件相互协作,共同支撑起LLM应用程序的强大功能,使其能够在各种场景中提供准确、连贯且及时的回应。随着技术的不断发展,相信LLM的记忆系统会更加完善,为我们带来更多的便利和可能。

AI大模型学习福利

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。


因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获

四、AI大模型商业化落地方案

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值