Selective Context:上下文压缩神器,突破 LLM 长文本处理瓶颈
在处理长文档和对话时,受限于上下文窗口的限制,大型语言模型(LLM)常面临性能下降和信息丢失的挑战。那么,如何能够在不更换大模型的情况下,又能够将更多的上下文信息传给大模型呢?今天就介绍一个很不错的 Prompt 压缩的项目——Selective_Context[1],通过压缩提示和上下文,使 LLMs 能够高效处理双倍内容,同时保持性能不下降。
Selective_Context 核心介绍
Selective Context 完成压缩的核心技术在于自信息测量。在信息论中,自信息衡量与一个事件相关的惊讶或不确定性水平;罕见事件传递更多信息,因此具有更高的自信息,而常见事件传递较少信息,自信息较低。在语言建模中,自信息可以用来评估词汇单元(如单词、短语或句子)的信息量。自信息较低的词汇单元信息量较少,更可能从上下文中推断出来,因此在 LLM 推理过程中,这些输入部分可以被视为冗余。
Selective Context 的实现分为三个关键步骤:首先,使用因果语言模型(如 GPT 、OPT 或 LLaMA)计算每个 token 的自信息;其次,将 token 及其对应的自信息值合并成词汇单元,这些可以是短语或句子;最后,消除被认为最不必要的内容,使输入更加紧凑。
Selective Context 技术已在 arXiv 论文、 BBC 新闻文章和对话记录等三个数据源上进行了评估,并在四个 NLP 任务(摘要、问答、原始上下文重建和对话)中表现出色。通过实际案例,我们可以看到 Selective Context 技术在 summarization 和 QA 等任务中的应用效果,显著提高了 LLMs 的输入效率和处理能力。它的实现思路给大