随着大语言模型(LLMs)在处理长文本方面的能力日益增强,如何准确评估它们在长文本环境中的检索和推理能力成为了一个重要问题。超长文本对LLMs检索关键信息的能力提出了挑战,此外越长的文本中所含的逻辑关系也越复杂,LLMs能够处理超长文本中涵盖的复杂逻辑关系吗?
司南团队构建了针对LLMs超长文本能力的中英双语测试框架 —— NeedleBench,它专门设计来压力测试LLMs在处理长达百万级上下文窗口中的检索能力和推理能力。
论文链接:http://arxiv.org/abs/2407.11963
PART1: 为什么需要NeedleBench?
现代 LLMs,如最近公开的 GPT-4o 、GLM-4-9B、InternLM2.5等,已经扩展了它们的上下文窗口,可以处理多达 100 万个 token 的文本。然而,简单地通过 “Needle-In-A-Haystack” 大海捞针要求LLMs提取关键信息,并不能充分证明 LLM 能够处理复杂的长上下文问题。现实世界的任务通常要求模型在多个分散的信息点之间进行检索和整合,并进行复杂的逻辑推理。
PART2: NeedleBench 的核心任务

-
单针检索任务(Single-Needle Retrieval Task, S-RT):对应于Needle-In-A-Haystack大海

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



