论文地址:Lost in the Middle: How Language Models Use Long Contexts
论文总结:写prompt的时候,需要注意内容的顺序,把重要的信息放在最前面或者最后面。
大型语言模型大有用处,在设计 prompt 方面,人们通常建议为语言模型提供详尽的任务描述和背景信息。
近期的一些语言模型有能力输入较长的上下文,但它究竟能多好地利用更长的上下文?这一点却相对少有人知。
近日,斯坦福大学、加州大学伯克利分校和 Samaya AI 的研究者发布了一篇实证研究论文,探究了这个问题。
结论令人意外:如果上下文太长,语言模型会更关注其中的前后部分,中间部分却几乎被略过不看,导致模型难以找到放在输入上下文中部的相关信息。

他们对多种不同的开源(MPT-30B-Instruct、LongChat-13B (16K))和闭源(OpenAI 的 GPT-3.5-Turbo 和 Anthropic 的 Claude)的语言模型进行了对照实验 —— 实验中需要模型获取并使用输入上下文中的信息。
研究者首先实验了多文档问答,该任务需要模型基于多个文档进行推理,以找到相关信息并将其用于回答给定问题。这个任务模拟了检索增强式生成任务,其是许多商用生成式搜索和问答应用(如 Bing Chat)的基础。在实验中,他们的做

研究表明,尽管大型语言模型能处理长上下文,但它们在处理中部信息时表现不佳,更关注开头和结尾部分。论文通过多文档问答和键值检索任务揭示了模型在长上下文中的信息检索问题,提出模型性能与输入信息位置存在U型关系。
最低0.47元/天 解锁文章
486

被折叠的 条评论
为什么被折叠?



