本文是LLM系列文章,针对《FanOutQA: Multi-Hop, Multi-Document Question Answering for Large Language Models》的翻译。
摘要
日常场景中常见的一种问题是“fan-out”问题,即复杂的多跳、多文档推理问题,需要查找大量实体的信息。然而,在大型语言模型中,很少有资源来评估这种类型的问答能力。为了更全面地评估LLM中的复杂推理,我们提出了FanOutQA,这是一个以英语维基百科为知识库的fan-out问答对和人工注释分解的高质量数据集。我们在数据集中制定了三个基准设置,并对7个LLM进行了基准测试,包括GPT-4、LLaMA 2、Claude-2.1和Mixtral8x7B,发现在长期环境中,当代模型仍有改进文档间依赖性推理的空间。我们提供数据集和开源工具来运行模型,以鼓励评估。
1 引言
2 相关工作
3 FanOutQA数据集
4 基准研究
5 结论
fan-out问题回答给LLM带来了一些挑战,包括将复杂的问题分解为更简单的子问题、检索文档、提取相关信息以及对大量文档进行多跳推理。为了应对大型语言模型中快速提高的推理能力和上下文管理策略,我们为这项雄心勃勃的任务开发了一个名为FanOutQA的数据集,并在数据集上制定了三个挑战设置。我们在挑战设置中对七个最先进模型的性能进行了基准测试,发现fan

FanOutQA是评估大型语言模型处理复杂多跳、多文档推理问题的能力的新数据集。它揭示了当前模型在处理跨文档依赖性推理时的局限性,提供开源工具以促进进一步的研究。
已下架不支持订阅
768

被折叠的 条评论
为什么被折叠?



