一、核心概念:什么是大模型的“短记忆”与“长记忆”
我们可以这样类比:
-
短记忆:
- 定义: 模型在处理当前一次对话或查询时,所能直接“看到”的上下文信息。
- 技术本质: 模型在生成下一个词时,其注意力机制能够关注到的前方所有Token的集合。
- 特点: 记忆完全在模型的内部激活中,是瞬时的、与当前任务强相关的。一旦生成结束,这些“记忆”就消失了。

-
长记忆:
- 定义: 模型能够跨会话、跨任务持久化保存和调用的知识或信息。
- 技术本质: 模型本身无法直接实现长记忆。长记忆需要通过外部技术将信息在推理时“注入”到模型的上下文窗口中,从而转化为短记忆来使用。
- 特点: 信息被存储在模型之外(如向量数据库、文件等),需要时被检索并唤醒。

二、技术原理详解
1. 短记忆的技术原理
短记忆的能力直接由

最低0.47元/天 解锁文章
819

被折叠的 条评论
为什么被折叠?



