2025_NIPS_Efficient Prompt Compression with Evaluator Heads for Long-Context Transformer Inference

文章核心总结与翻译

一、主要内容

该研究针对长文本输入场景下大语言模型(LLMs)推理成本高、延迟高的问题,提出了一种基于评估头(Evaluator Heads)的无训练提示压缩方法EHPC(Evaluator Head-based Prompt Compression)。

核心背景

长文本任务(如法律文档分析、代码注释理解等)对LLMs的需求日益迫切,但Transformer架构的计算和内存开销随输入长度激增,导致推理效率低下。现有提示压缩方法存在缺陷:要么依赖预训练模型计算困惑度,需多次调用LLM导致时间复杂度过高;要么需要训练辅助小模型,产生额外训练成本且在分布外场景性能下降。

核心机制

  1. 评估头识别:发现Transformer模型中存在特定注意力头(评估头),能够精准筛选对推理至关重要的 tokens,其原理基于长文本中注意力分数的稀疏性(注意力 sink 现象)。
  2. 两阶段压缩推理
    • 预填充阶段:仅使用前几层的评估头快速"浏览"输入提示,计算token重要性分数;
    • 推理阶段:仅将高重要性token传入模型进行推理,保留关键信息的同时缩减输入长度。
  3. 两种应用场景
    • 扩展模型推理(EMI):本地模型压缩提示后,用于商业API模型(如GPT-3.5-Turbo),降低API调用
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值