阿里通义团队LaRA解读：用于评估RAG和长上下文大模型的基准测试

最新推荐文章于 2025-06-20 14:18:32 发布

程序员辣条

最新推荐文章于 2025-06-20 14:18:32 发布

阅读量1k

点赞数 16

CC 4.0 BY-SA版权

文章标签：人工智能机器学习 AI大模型 agi AI 程序员大模型

本文链接：https://blog.youkuaiyun.com/m0_65555479/article/details/147018466

当下有效地将外部知识融入 LLMs，以提升其能力并满足现实世界需求，仍然是一个关键挑战。检索增强生成（RAG）(基于DeepSeek构建RAG 系统综合指南（含代码）)和长上下文（LC）(RAG与长上下文LLM（Long-Context LLM）：一场AI领域的对决)LLMs 作为两种重要的方法，受到了广泛关注。为了深入比较这两种方法的优劣，研究人员提出了 LaRA（Long-context and Retrieval-Augmented generation Benchmark）这一新颖的基准测试，旨在为相关研究和应用提供有力支持。

一、研究背景

LLMs 在多个领域展现出强大的能力，但也存在诸多局限性。例如，处理长文本时计算成本高、易产生事实错误和幻觉、难以适应专业领域以及生成的回答过于通用等。为了解决这些问题，RAG 应运而生。RAG 通过从上传的文档、知识库或网站中检索最相关的片段，使 LLMs 能够有效利用外部知识。然而，随着 LLMs 的发展，如 GPT-4o、Llama 3.2、Claude 3.5 和 Qwen 2.5 等模型，它们现在支持高达 128k 令牌的输入长度，这使得直接将相关信息的完整上下文输入模型成为可能，从而引发了关于 RAG 是否仍然必要的疑问。

此前，许多研究对 RAG 和为 LLMs 提供完整长上下文的性能差异进行了探讨，但并未得出明确结论。不同研究得出了相互矛盾的结果，有的认为 RAG 在某些传统问答数据集上表现更优，而有的则认为 LC 在几乎所有设置中都优于 RAG。这种不一致性主要源于现有基准测试的评估流程设计存在缺陷，包括语料库问题（如文本长度过短、替换失败）、评估指标不合理以及任务设计不切实际等。

二、LaRA 基准测试

（一）长上下文数据收集

在构建 LaRA 时，研究人员遵循了一系列严格的原则来收集长上下文数据。首先是及时性，选择近期的高质量长上下文，以防止数据泄露问题，确保这些数据不太可能被包含在 LLMs 的训练数据中。其次是适当长度，考虑到主流商业和开源模型通常支持 32k 和 128k 的上下文长度，选择尽可能接近这些窗口大小但不超过它们的上下文。自然性也是重要原则之一，所选上下文均为自然出现的长文档，而非人工构建或由不相关短文本组装而成，以确保基准测试能够反映现实世界使用的复杂性和多样性。最后是权威性，所有上下文都来自可靠和可信的信息来源。

为了确保上下文的多样性，研究人员选择了小说、财务报表和学术论文作为上下文类型。对于小说，分别选择中篇小说和长篇小说的 txt 格式作为 32k 和 128k 上下文；财务报表包括美国上市公司 2024 年的最新季度报告（32k）和年度报告（128k）；学术论文则通过组合 2024 年在 arXiv 上发表的、通过引用相关的几篇论文来创建合适长度的上下文。此外，为了减轻小说数据可能存在的数据泄露风险，研究人员使用 GPT-4o 进行实体替换，以确保小说文本和问题之间的一致性。

（二）任务设置

LaRA 包括四个主要任务类别，旨在全面评估 LC LLMs 和 RAG 的能力。

定位任务
这是 LaRA 中最基本的任务，用于评估 LLM 在长上下文中定位特定信息的能力。答案通常位于长上下文中的单个句子或段落中，无需额外的推理或计算。与 “大海捞针” 问题不同，定位任务允许释义，只要保留基本含义即可。该任务对于评估 LLM 在长上下文中的基本理解和信息检索能力至关重要。
推理任务
推理任务涉及基于长上下文中提供的信息进行逻辑推导、推断或计算的问题。这些问题要求模型对信息有更深入的理解和处理，而不是直接从文本中提取答案。例如，推断两个角色之间的关系或计算财务报表中的相关数据。具体问题会根据上下文类型的不同而显著变化，研究人员采用针对特定文本类型的不同种子问题，通过上下文学习生成类似的问答对。
比较任务
比较任务用于评估 RAG 和 LC 从长上下文的多个部分合成信息、比较内容或数值以得出最终答案的能力。与其他任务一样，比较任务也涉及手动设计针对各种文本类型的不同种子问题，以确保生成的问题不仅相关，还能反映特定上下文的细微差别和复杂性。
幻觉检测任务
幻觉是 LLMs 中常见的问题，当模型生成不准确或不相关的信息时就会出现。幻觉检测任务旨在测试模型拒绝回答给定上下文中未提及问题的能力。这些问题看似可以根据上下文回答，但实际上文本中并未提及所需信息，其统一答案为 “XXX 在提供的上下文中未提及”。在实际应用中，模型能够拒绝回答这类问题至关重要，特别是在对准确性和可靠性要求极高的领域。

（三）数据标注

LaRA 的标注过程采用了一种迭代优化的方法。首先，人工创建种子问题和答案，然后利用 GPT-4o 通过上下文学习生成新的问答对。对新生成的问答对进行抽样，进行人工验证以确保其正确性和实用性。如果通过率未达到预定义的阈值，则对种子问答和提示进行优化，然后重新生成和验证。

由于长文本标注的难度较大，研究人员采用了多种策略来提高生成质量。对于定位和推理任务，将长上下文分割成多个长度约为 10k 令牌的片段，分别输入 GPT-4o 生成问答对。这样做不仅可以减轻标注者（此处为 GPT-4o）的认知负担，提高生成问答对的准确性和专注度，还能确保答案在整个上下文中均匀分布，同时便于研究 LLM 是否存在 “中间迷失” 问题。对于比较任务，将上下文分割成较小的片段，然后抽样两个片段生成与种子问题类似的比较问题，并根据不同的上下文类型调整分割策略，以保持文档的固有结构和连贯性。

（四）评估方法

在评估阶段，LaRA 采用了以 GPT-4o 为核心的评估体系。考虑到自动评估指标（如 F1 分数和精确匹配）在自然语言生成任务中的不可靠性，以及 LLM 在有明确答案的问答任务评估中展现出的高精度，研究人员选择让 GPT-4o 根据查询、真实答案和模型预测来评估回答的正确性。同时，为了确保 LaRA 的质量和可靠性，在构建过程中纳入了人工验证环节。一方面，在生成过程中，通过抽样、提示优化和种子问答选择等人工调整手段，保证数据质量；另一方面，计算 LLM 评估和人工评估之间的 Cohen's Kappa 系数，以定量评估两者之间的一致性，确保判断过程的可靠性。实验结果显示，GPT-4o 评估与人工评估的一致性较高，无论是对于大型模型还是小型模型都适用。

三、实验结果与分析

（一）实验设置

研究人员评估了 11 种不同的 LLMs，包括 7 种开源模型（如 Llama-3.2-3B-Instruct、Qwen-2.5-7B-Instruct 等）和 4 种先进的专有模型（如 GPT-4o、Claude-3.5-Sonnet 等），以研究各种因素对 RAG 和 LC 性能的影响。在 RAG 的实现方面，采用了标准化配置，块大小为 600 令牌，每个文档 5 个块，块之间重叠 100 令牌，并使用 GTE-large-en-v1.5 进行嵌入提取，采用嵌入相似性和 BM25 相结合的混合搜索策略。

（二）主要结果与分析

整体性能
实验结果表明，模型架构、上下文长度与性能之间存在复杂的关系。对于开源模型，在 32k 上下文长度下，LC 通常优于 RAG，但 Llama-3.2-3B-Instruct 和 Mistral-Nemo-12B 除外；而在 128k 上下文长度下，大多数开源模型中 RAG 表现更优。对于专有模型，在两种上下文长度下都倾向于 LC，这可能是由于其更大的参数规模和更强的长上下文处理能力。这表明在 RAG 和 LC 之间不存在普遍的 “赢家”，性能高度依赖于具体的 LLM 和上下文长度。
缩放定律在 LC 中的体现
实验结果证实了 LC (SEALONG：LLM（Large Language Model）在长上下文推理任务中的自我改进)中已有的缩放定律，即较大的模型始终优于较小的模型。例如，GPT-4o 和 Qwen-2.5-72B-Instruct 相较于它们的较小版本，在性能上有显著提升，且这种优势在 128k 上下文长度下更为明显。同时，所有模型在处理更长上下文时性能都会下降，但较小模型的下降更为明显，这凸显了它们在处理大量文本输入时的局限性。
RAG 助力模型处理超长上下文
在 128k 上下文长度下，RAG 在几乎所有开源模型上的表现都优于 LC。例如，Llama-3.1-8B-Instruct 和 Qwen-2.5-7B-Instruct 使用 RAG 时分别比使用 LC 时性能提高了 0.15% 和 7.39%。此外，当上下文长度增加时，LC 的性能下降幅度比 RAG 更大，这表明 RAG 在处理超长上下文时受长度增加的影响较小，并且能够使长上下文能力较弱的模型达到与其他模型相当的性能。

（三）任务分析

定位任务
定位任务相对较容易，RAG 和 LC 在该任务上都能取得较高的准确率。在 32k 上下文长度下，LC 略优于 RAG；在 128k 上下文长度下，RAG 优势更明显。对于开源模型，32k 时两者性能差异不大，128k 时 RAG 表现更优；而对于专有模型，LC 始终优于 RAG。这表明在处理长文本有困难时，检索对于基于定位的问题是有价值的工具；而对于有足够能力的模型，LLMs 自身就能在这类简单任务上超越 RAG。
推理任务
推理任务的性能趋势与定位任务相似，尤其是对于较小的模型。在 32k 上下文时，RAG （基于 DeepSeek R1 和 Ollama 开发 RAG 系统（含代码））的准确率略低于 LC；在 128k 上下文时，趋势反转。但对于较大的模型，如 GPT-4o 和 Claude-3.5-Sonnet，LC 的优势更为明显。这可能是因为推理任务虽然依赖特定文本片段获取答案，但文档的其他部分可能包含有助于推理的补充信息，长上下文能力强的模型能够更好地利用这些全局知识，从而在推理任务中表现更优。
比较任务
比较任务对 RAG 来说是最具挑战性的，与 LC 的性能差距最大。在 32k 和 128k 上下文长度下，平均差距分别达到 15.22% 和 14.30%。RAG 在比较任务中表现不佳的原因主要有两个：一是部分比较问题强调比较的一个方面，而对另一方面提供的信息有限，使得 RAG 难以检索到回答问题所需的所有片段；二是某些查询以抽象的术语描述比较，而非具体细节，这阻碍了基于相似性的检索的有效性。与定位任务相比，比较任务需要准确检索和比较多个不同的片段，大大增加了 RAG 的复杂性。
幻觉检测任务
在幻觉检测任务中，RAG 在大小模型中都具有明显优势。LC 由于将整个文本输入模型，引入了更多噪声，导致模型更容易产生幻觉或错误答案。有趣的是，在这个任务中，较大的模型并没有表现出明显的优势，即使是在其他任务中表现出色的 GPT-4o，在幻觉检测任务上的准确率也仅为 56.34%。这表明即使是能够处理长上下文的模型，也可能会被大量信息淹没，从而产生错误结论。而 RAG 通过选择性检索相关信息，有助于缓解这个问题，使大小模型都能更好地识别出自己缺乏足够知识来准确回答问题的情况。

（四）上下文类型分析

不同上下文类型对 RAG 和 LC 的性能有显著影响。与小说相关的问题难度最大，而与学术论文相关的问题最容易。这可能是因为小说中常见的重复句子结构会阻碍精确的信息定位，而学术论文通常具有更强的逻辑流和更高的信息密度，便于区分问题和答案。在 32k 上下文长度下，几乎所有模型中 LC 都优于 RAG；但在 128k 时，较弱的模型使用 RAG 表现更好。此外，无论上下文长度如何，与小说相关的任务中 RAG 和 LC 的性能差距都比与学术论文或财务报表相关的任务小，这表明对于结构不太清晰的上下文，RAG 是一种可行的降低计算成本的替代方案；而对于高度结构化的文本，如学术论文和财务报表，LC 则具有明显优势。

（五）块数量和大小的影响

研究人员通过对 Qwen-2.5-72B-Instruct 和 Qwen-2.5-7B-Instruct 进行实验，探究了检索信息长度（块数量和块大小）对 RAG 性能的影响。对于 72B 模型，随着检索块数量的增加，性能持续提升，这得益于其较强的长上下文处理能力；而 7B 模型在中间块数量时达到性能峰值，过多的检索会引入噪声，抵消信息增益。在块大小方面，过大或过小的块都会导致性能下降，在合理范围内增加块大小会有一定的性能提升，但效果不如增加块数量明显。

（六）“中间迷失” 问题

通过控制回答问题所需信息在上下文中的位置，研究发现 LC LLMs 在答案靠近上下文中心时准确率会下降，表现出 “中间迷失” 现象，在像 Qwen-2.5-7B 这样较弱的模型中该问题尤为明显。而 RAG 的性能与答案位置没有明显相关性，这表明 RAG 模型在处理长上下文时，对于从文档不同部分获取信息的任务更加稳健，不易受到信息位置的影响。

四、研究结论

通过开发和评估 LaRA 这一新颖的基准测试，研究表明在将外部知识融入 LLMs 时，RAG （探索从传统检索增强生成（RAG）到缓存增强生成（CAG）的转变）和 LC 的最优选择取决于多种因素的复杂相互作用，包括模型大小、上下文长度、任务类型等。LaRA 为评估和比较 RAG 和 LC 模型提供了有价值的资源，有助于推动该领域的进一步研究。这一研究成果挑战了以往不确定的比较结果，为从业者在开发和部署 LLM 应用时有效利用 RAG 和 LC 方法提供了可行的指导方针。未来，随着 LLMs 和相关技术的不断发展，需要持续探索如何更好地结合 RAG 和 LC 的优势，以提升模型在各种实际场景中的性能和可靠性。同时，LaRA 基准测试也可以根据新的研究需求和技术发展进行进一步的优化和扩展，为该领域的研究提供更有力的支持。