突破LLM的token限制：多块上下文保留的实用系统（含code）

最新推荐文章于 2025-08-03 20:04:27 发布

原创

最新推荐文章于 2025-08-03 20:04:27 发布 · 1k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#llm

大语言模型（LLMs）取得了令人瞩目的进展，已广泛应用于文本生成、翻译、问答等诸多场景。然而，LLMs存在的一些局限性，如有限的上下文窗口（令牌限制）和缺乏长期记忆，限制了其在处理复杂任务时的表现。本文将深入探讨一种实用的解决方案，旨在克服这些限制，提升LLMs的性能。

一、大语言模型概述

LLMs是基于Transformer架构构建的深度学习模型，通过在海量文本数据集上进行训练来学习语言模式和知识。Transformer模型的核心机制是自注意力机制，它能够让模型在无需人工监督的情况下，自动学习输入文本中各部分之间的相关性。在处理文本时，LLMs会将文本拆分为词元（token），这些词元可以是子词或字符，随后将其输入到Transformer模型中进行处理，最终输出每个词元的嵌入表示，用于各种自然语言处理任务。

在实际应用中，GPT-4以其广泛的通用性、出色的指令遵循能力和强大的代码生成能力而闻名；Claude注重安全性和对话应用场景；Gemini旨在实现推理和多模态应用；LLaMA作为开源权重的大语言模型，在研究和微调方面应用广泛。这些模型虽然功能强大，但仍面临一些挑战。

二、大语言模型的局限性

（一）长期记忆和个性化问题

大多数LLMs在默认情况下是无状态的，它们不会自动记住过去的对话内容。除非专门为其设计记忆机制，否则每个输入提示（prompt）都会被独立处理。这意味着在连续对话场景中，模型无法利用之前的交互信息，导致对话缺乏连贯性和上下文感知能力。例如，在多轮问答中，用户询问了一系列相关问题，但模型无法结合之前的回答进行更准确、更连贯的回应。