CRAG – 直观且详尽解释

原创于 2025-11-23 09:51:35 发布 · 686 阅读

12 ·

CC 4.0 BY-SA版权

License CC BY-NC-SA 4.0 / 自豪地采用谷歌翻译

文章标签：

#榛樿鍒嗙被

榛樿鍒嗙被专栏收录该内容

1051 篇文章

订阅专栏

原文：towardsdatascience.com/crag-intuitively-and-exhaustively-explained-0620b9b2ef15

人工智能 | 检索增强生成 | 基准测试

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/5dc0ade45b47d9fd3da5c20e00f17c4c.png

“探索边缘”由 Daniel Warfield 使用 MidJourney 创作。除非另有说明，所有图片均为作者所有。文章最初在《直观且详尽解释》上发表。

在这篇文章中，我们将讨论 Meta 的“综合 RAG 基准”（CRAG），这是一个新的基准，似乎准备改变检索增强生成（RAG）的现状。

首先，我们将简要介绍 RAG，为什么它很重要，以及它的一些局限性。然后，我们将讨论 CRAG，它存在的原因，以及为什么 CRAG 不仅标志着 RAG，而且整个 AI 领域的根本性转变。

这篇文章对谁有用？ 任何想要了解 AI 当前轨迹及其如何发展的人。

这篇文章的深度如何？ 这篇文章在概念上很简单，但涉及了 AI 领域的一些最前沿趋势。

先决条件: 无。

归属: 我在以下 YouTube 视频中讨论了这个话题：

cdn.embedly.com/widgets/media.html?src=https%3A%2F%2Fwww.youtube.com%2Fembed%2FGzU1JfslufE%3Ffeature%3Doembed&display_name=YouTube&url=https%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3DGzU1JfslufE&image=https%3A%2F%2Fi.ytimg.com%2Fvi%2FGzU1JfslufE%2Fhqdefault.jpg&key=a19fcc184b9711e1b4764040d3dc5c07&type=text%2Fhtml&schema=youtube

RAG（检索增强生成）简介

在我们讨论 CRAG 之前，我们应该首先讨论“检索增强生成”（RAG）。我有一篇专门的文章介绍这个主题，但我们将简要探讨其高级概念。

检索增强生成 – 直观且详尽解释

Retrieval Augmented Generation（RAG）的想法是通过补充一些信息来增强语言模型，使其能够提供更好的答案。在 RAG 中，这种补充信息通过将用户的查询与补充信息结合成一个单一的提示（有时被称为“提示增强”）来提供给语言模型。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/9842a5b1015ba850fa2520ee1a947c23.png

使用提示增强的一个例子，其中将一段上下文相关的信息和用户的查询组合在一起。来自我的 RAG 文章。

在“检索增强生成”（Retrieval Augmented Generation）中，使用一个名为“检索器”（retriever）的系统根据用户的查询自动从知识库中提取相关信息。你向检索器提出一个问题，它会尝试在知识库中找到所有回答你问题的相关信息。然后，检索器检索到的信息，连同用户的查询一起，用于构建增强的提示。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e5ecadb000c69438f490881b6bc5febd.png

RAG（检索、增强、生成）三个步骤的概念图，检索（根据用户的查询获取信息）、增强（将上下文相关的信息与用户的查询相结合）、生成（使用 LLM 根据增强的提示构建响应）。来自我的 RAG 文章。

实际上做检索的方法有很多，但最常见的方法是通过距离计算。基本上，你首先使用一个叫做编码器（encoder）的东西将知识库中所有知识点的所有比特转换为向量。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/4e76e4c90303f0e8acf52fd36b04ace7.png

编码的概念图，将一些文本片段蒸馏成一个向量。

在这篇文章中，我更多地讨论了嵌入（embeddings），如果你对深入挖掘感兴趣：

CLIP，直观且全面解释

一旦用户的查询和知识库中的信息被嵌入到向量中，就可以计算出从查询得到的向量和从特定信息得到的向量之间的距离。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/49e2ab136dc0a8cf5afb6ff58020ed90.png

在 RAG 环境中如何使用距离来检索正确信息的一个例子。彼此距离最小的向量被认为是相似的。

这个通用过程是大多数 RAG 系统如何检索与用户查询相关的信息。

RAG 的要点

RAG 的功能，使语言模型能够根据文档存储中的信息回答查询，已经引起了商业界的广泛关注。语言模型的训练成本高昂，为满足公司需求定制语言模型也很困难，因此 RAG 能够将信息输入到已经训练好的语言模型中，这使得它成为商业用例的有力技术。有趣的是，这个用例实际上并不是 RAG 被发明的原因。

原始 RAG 论文检索增强生成用于知识密集型 NLP 任务将更新模型信息作为一个次要目标，而首先关注的是提高模型的性能：

（语言模型）访问和精确操作知识的能力仍然有限，因此在知识密集型任务中，它们的性能落后于特定架构。此外，提供决策的来源和更新其世界知识仍然是开放的研究问题。 —— 来自RAG 论文

RAG 的核心思想是，语言模型擅长以合理的方式陈述信息，但实际上它们在回忆训练过的具体事实方面做得不好。RAG 论文的作者引用了一篇名为《人工智能的下一个十年：迈向鲁棒人工智能的四个步骤》的论文，将其作为关键灵感来源，该论文声称“鲁棒人工智能”是人工智能的下一个主要里程碑。

让我们称这个新层次为鲁棒人工智能：这种人工智能虽然不一定超越人类或自我改进，但可以依赖其在系统且可靠的方式下，将所知应用于广泛的问题，从各种来源综合知识，从而能够灵活且动态地关于世界进行推理，将一个情境中学到的知识转移到另一个情境，正如我们期望的普通成年人的方式。 —— 来自《人工智能的下一个十年》

这是一个宏伟且大胆的目标，也是原始 RAG 论文的主要焦点。虽然企业已经关注到知识可移植性的功能，但这实际上只是从研究角度来看的一个幸运事件。RAG 的主要目的是提高人工智能系统的性能、可靠性和鲁棒性。

还必须将鲁棒智能与我所说的点状智能进行对比，点状智能在很多情况下都能工作，但在很多其他情况下会失败，表面上看起来相当相似，以一种某种程度上不可预测的方式。 —— 来自《人工智能的下一个十年》

任何密切关注人工智能文献的人都会意识到，鲁棒性自始至终都未能解决该领域的问题。深度学习至今也未能解决这个问题，尽管已经投入了巨大的资源。 —— 来自人工智能的下一个十年

正如一支 Facebook 人工智能研究团队（Nie 等人，2019 年）所说：“越来越多的证据表明，最先进的模型学会利用数据集中的虚假统计模式……而不是像人类那样以灵活和可推广的方式学习意义。” —— 来自人工智能的下一个十年

在与 RAG 论文合著者 Patrick Lewis 的在线研讨会 In a webinar with Patrick Lewis 中，他被问及在性能方面（大约在 1:13:00 的标记处），工业界或学术界哪个是更优秀的最先进模型来源。他说出了许多研究人员都会说的话；研究的目的是不是创造最先进的模型，而是发现更好的建模方法。

只是把大量的 GPU 扔到一个问题上，用蛮力解决问题，你就能得到很好的结果，我就像为你欢呼。不是特别攻击 OpenAI，但至少对我来说，我不太对 GPT 3 感兴趣，因为很明显会发生这种情况（你会用一个大模型得到好的性能）。 —— 来自与 RAG 合著者 Patrick Lewis 的在线研讨会 From a webinar with Patrick Lewis

我认为这种普遍的理解，即 RAG 主要从研究角度提高性能、可靠性和鲁棒性，对于理解 CRAG 是什么以及为什么存在至关重要。

知识图谱简介

CRAG 和 RAG 论文都大量引用了知识图谱。基本上，在互联网上，有很多事物与其他事物有复杂的关系。知识图谱是一种存储这些实体和关系的方式。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a6f8d9ce58978a64193e0f39cae37aae.png

知识图谱的一个简单例子，来源。

知识图谱长期以来一直是存储复杂关系的首选机制。虽然语言模型“某种程度上”学习了这些关系，但 RAG 的一个主要想法是，也许可以使用这些显式的高质量知识图谱来补充语言模型的能力。

CRAG 基准

CRAG 基准包含了一个多样化的 4,409 个问题，以及相应的人类标注答案，还有支持性参考文献。其想法是成为一个“综合 RAG 基准”，因此得名。

CRAG 基准主要关注两个关键问题：

问题 1：LLMs 在回答关于随时间变化的事实的问题上表现不佳，即使它们已经训练了正确的答案。这是因为 LLMs 是统计模型，当面对有多个看似合理的答案的问题时可能会感到困惑。

研究表明，GPT-4 在回答涉及缓慢变化或快速变化的事实的问题上的准确率低于 15% – CRAG 论文

问题 2：LLMs 在回答关于不太受欢迎的话题的问题上表现不佳，这可能是由于这些话题在数据集中出现得不多。在提出这一论点时，他们主要参考了论文Head-to-Tail: How Knowledgeable are Large Language Models (LLMs)? A.K.A. Will LLMs Replace Knowledge Graphs?，在其中他们向 GPT-4 提出了各种问题，这些问题具有不同的流行度和具体性。他们发现，语言模型的知识水平不足以取代像知识图谱这样的传统数据库。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e7b5f521e824eb0fc8c004f2e2431a1a.png

询问 GPT-4 关于热门话题（头部）、中等热门话题（躯干）和高度特定话题（尾部）的问题的结果。来自How Knowledgeable are Large Language Models论文。

CRAG 基准测试包含了一些问题，这些问题 LLMs 可能在它们的训练集中看到过答案，但仍然无法准确回答，因为现实是 LLMs 不能替代像知识图谱这样的东西。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/1a3e9ca3cdbf1ffe9f72f461a9f96a36.png

将各种 LLMs 应用于 CRAG 基准测试的结果。LLMs 在回答这些问题方面表现不佳（GPT-4 Turbo 的准确率为 33.5%）并且有时在回答问题时完全编造出看似合理的胡言乱语（GPT-4 Turbo 的 13.5%幻觉）。来自CRAG 论文。

CRAG 基准测试中的每个问题都与可以回答这些问题的信息配对。CRAG 基准测试以三种方式提供这些信息：