NeedleBench 超长文本评测基准:大语言模型能否在 1000K 长度上检索推理?

随着大语言模型(LLMs)在处理长文本方面的能力日益增强,如何准确评估它们在长文本环境中的检索和推理能力成为了一个重要问题。超长文本对LLMs检索关键信息的能力提出了挑战,此外越长的文本中所含的逻辑关系也越复杂,LLMs能够处理超长文本中涵盖的复杂逻辑关系吗?

司南团队构建了针对LLMs超长文本能力的中英双语测试框架 —— NeedleBench,它专门设计来压力测试LLMs在处理长达百万级上下文窗口中的检索能力和推理能力。


论文链接:http://arxiv.org/abs/2407.11963


PART1: 为什么需要NeedleBench?


现代 LLMs,如最近公开的 GPT-4o 、GLM-4-9B、InternLM2.5等,已经扩展了它们的上下文窗口,可以处理多达 100 万个 token 的文本。然而,简单地通过 “Needle-In-A-Haystack” 大海捞针要求LLMs提取关键信息,并不能充分证明 LLM 能够处理复杂的长上下文问题。现实世界的任务通常要求模型在多个分散的信息点之间进行检索和整合,并进行复杂的逻辑推理。


PART2: NeedleBench 的核心任务

  1. 单针检索任务(Single-Needle Retrieval Task, S-RT):对应于Needle-In-A-Haystack大海

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值