文章核心总结与翻译
一、主要内容
该研究针对长文本输入场景下大语言模型(LLMs)推理成本高、延迟高的问题,提出了一种基于评估头(Evaluator Heads)的无训练提示压缩方法EHPC(Evaluator Head-based Prompt Compression)。
核心背景
长文本任务(如法律文档分析、代码注释理解等)对LLMs的需求日益迫切,但Transformer架构的计算和内存开销随输入长度激增,导致推理效率低下。现有提示压缩方法存在缺陷:要么依赖预训练模型计算困惑度,需多次调用LLM导致时间复杂度过高;要么需要训练辅助小模型,产生额外训练成本且在分布外场景性能下降。
核心机制
- 评估头识别:发现Transformer模型中存在特定注意力头(评估头),能够精准筛选对推理至关重要的 tokens,其原理基于长文本中注意力分数的稀疏性(注意力 sink 现象)。
- 两阶段压缩推理:
- 预填充阶段:仅使用前几层的评估头快速"浏览"输入提示,计算token重要性分数;
- 推理阶段:仅将高重要性token传入模型进行推理,保留关键信息的同时缩减输入长度。
- 两种应用场景:
- 扩展模型推理(EMI):本地模型压缩提示后,用于商业API模型(如GPT-3.5-Turbo),降低API调用

订阅专栏 解锁全文
8万+

被折叠的 条评论
为什么被折叠?



