本文是LLM系列文章,针对《Writing in the Margins: Better Inference Pattern for Long Context Retrieval》的翻译。
摘要
本文介绍了一种新的大型语言模型推理模式——边缘写作(WiM),旨在优化面向检索任务中长输入序列的处理。这种方法利用键值缓存的分块预填充来执行分段推理,从而能够高效地处理广泛的上下文,并生成和分类引导模型执行特定任务的中间信息(“边距”)。这种方法略微增加了计算开销,同时显著提高了现成模型的性能,而不需要进行微调。具体来说,我们观察到,WiM在推理技能(HotpotQA、MultiHop RAG)的准确性方面平均提高了7.5%,在聚合任务(CWE)的F1得分方面提高了30.0%以上。此外,我们展示了所提出的模式如何适应交互式检索设计,该设计为最终用户提供有关上下文处理进度的持续更新,并指出将相关信息集成到最终响应中。我们使用Hugging Face Transformers库发布了WiM的实现,网址为https://github.com/writer/writing-in-the-margins.