彻底搞懂RAG！智能体“知识检索”模式，看这一篇就够了！

原创于 2025-10-29 09:50:42 发布 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

LLMs在生成类人文本方面表现出显著突出的能力。然而，他们的知识基础通常局限于他们接受培训时所依据的数据，限制了他们获取实时信息、特定公司数据或高度专业化的详细信息。知识检索（RAG，或检索增强生成）解决了这一限制。RAG使LLMs能够访问和集成外部、当前和特定上下文的信息，从而提高其输出的准确性、相关性和事实依据。

对于AI代理来说，这一点至关重要，因为它使得它们能够在实时、可验证的数据基础上进行行动和响应，而不仅仅是基于静态的训练。这种能力使他们能够准确地执行复杂任务，例如访问最新的公司政策以回答特定问题或在下订单前检查当前库存。通过整合外部知识，RAG将代理从简单的对话者转变为高效的数据驱动工具，能够执行有意义的工作。

知识检索模式: 一个AI代理，用于根据用户查询从公共互联网上查找和整合信息。

概述

知识检索（RAG）模式通过在生成响应之前允许它们访问外部知识库，显著增强了LLMs的能力。RAG不仅仅依赖于他们内部的、预先训练的知识，而是允许LLMs“查找”信息，就像人类查阅书籍或搜索互联网一样。这个过程使LLMs能够提供更准确、最新和可验证的答案。

当用户使用RAG向AI系统提出问题或给出提示时，该查询不会直接发送到LLM。相反，系统首先搜索一个庞大的外部知识库——一个高度组织的文档、数据库或网页的图书馆——以获取相关信息。这种搜索不是简单的关键词匹配；它是“语义搜索”，了解用户的意图和他们词语背后的含义。此初始搜索会提取最相关的片段或信息“块”。然后将这些提取的片段“增强”或添加到原始提示中，创建一个更丰富、更明智的查询。最后，这个增强的提示被发送到LLM。有了这个额外的上下文，LLM可以生成一个不仅流畅自然而且基于检索数据的响应。

RAG框架提供了几个显著的好处。它允许LLMs访问最新信息，从而克服静态训练数据的限制。这种方法还通过基于可验证的数据来降低“幻觉”——即产生虚假信息——的风险。此外，LLMs 可以利用公司内部文档或维基中找到的专业知识。这一过程的一个重要优势在于其能够提供“引文”，这些引文能够明确指出信息的准确来源，从而增强了AI回答的可信度和可验证性。

为了充分理解RAG如何运作，理解几个核心概念是必不可少的（见图1）:

嵌入式在 LLMs 的上下文中，嵌入是文本的数字表示，例如单词、短语或整个文档。这些表示形式是向量，即一个数字列表。关键思想是捕捉数学空间中不同文本之间的语义意义和关系。在这个向量空间中，具有相似含义的单词或短语将具有彼此更接近的嵌入。例如，想象一个简单的二维图形。“猫”一词可能由坐标（2， 3）表示，而“小猫”则非常接近于（2.1， 3.1）。相比之下，“汽车”一词的坐标会像（8，1）一样远，反映了其不同的含义。在现实中，这些嵌入物位于一个更高的维度空间中，有数百甚至数千个维度，这使得人们能够非常细致地理解语言。

文本相似性：文本相似性是指衡量两段文本的相似程度。这可以在表面层面上，观察单词的重叠（词汇相似性），或者在更深层次上，基于意义的层面。在RAG环境中，文本相似性对于在知识库中找到与用户查询相对应的最相关信息至关重要。例如，考虑以下句子:“法国的首都是什么？”和“哪个城市是法国的首都？”虽然措辞不同，但他们在问同一个问题。好的文本相似度模型会认识到这一点，并给这两个句子打高分，即使它们只共享几个单词。这通常是利用文本的嵌入来计算的。

语义相似度与距离：语义相似是一种更高级的文本相似形式，它纯粹关注文本的意义和上下文，而不仅仅是使用的词语。它旨在了解两段文本是否传达了相同的概念或想法。语义距离与此相反，高语义相似性意味着低语义距离，反之亦然。在RAG中，语义搜索依赖于找到与用户查询语义距离最小的文档。例如，“毛茸茸的猫伴侣”和“家猫”除了“a”外没有共同的词。然而，一个理解语义相似性的模型会认识到它们指的是同一件事，并会认为它们高度相似。这是因为它们的嵌入在向量空间中非常接近，表示语义距离很小。这是一种“智能搜索”，即使用户的措辞与知识库中的文本不完全匹配，RAG也能找到相关信息。

图1:RAG核心概念:分组、嵌入和矢量数据库

文档的分块：Chunking是将大型文档分解为更小、更易于管理的部分或“块”的过程。为了使RAG系统高效工作，它不能将整个大型文档输入到LLM中。相反，它处理这些较小的块。文件分块的方式对于保存信息的上下文和含义非常重要。例如，不要把一本50页的用户手册当作一个单一的文本块，而要把它分成几节，几段，甚至几个句子。例如，关于“故障排除”的章节将是与“安装指南”分开的一部分。“当用户询问有关特定问题的问题时，RAG系统可以检索最相关的故障排除部分，而不是整个手册。这使得检索过程更快，并且提供给LLM的信息更集中，更切合用户的即时需求。一旦对文档进行分块处理，RAG系统必须采用检索技术来为给定查询找到最相关的片段。主要的方法是向量搜索，它使用嵌入和语义距离来查找概念上与用户问题相似的块。一种较古老但仍然有价值的技术是 BM25，这是一种基于关键字的算法，在不理解语义意义的情况下，根据术语频率对块进行排序。为了兼顾两者，经常使用混合搜索方法，将 BM25 的关键字精度与语义搜索的上下文理解相结合。这种融合允许更稳健和准确的检索，捕捉字面匹配和概念相关性。

矢量数据库：向量数据库是一种专门的数据库类型，旨在高效地存储和查询嵌入内容。文档被分块并转换为嵌入后，这些高维矢量存储在矢量数据库中。传统的检索技术，如基于关键字的搜索，非常擅长从查询中找到包含准确词语的文档，但缺乏对语言的深入理解。他们不会认识到“毛茸茸的猫伴侣”的意思是“猫”。“这就是矢量数据库的优点所在。它们是专门为语义搜索而构建的。通过将文本存储为数值向量，他们可以根据概念意义（而不仅仅是关键字重叠）找到结果。当用户查询也转换为向量时，数据库会使用高度优化的算法（如HNSW-分层可导航小世界）快速搜索数百万个向量，并找到意义上“最接近”的向量。这种方法对RAG来说优越得多，因为即使用户的措辞与源文档完全不同，它也能揭示相关上下文。本质上，当其他技术搜索单词时，矢量数据库搜索意义。这项技术以多种形式实现，从像Pinecone和Weaviate这样的托管数据库到像Chroma DB、Milvus和Qdrant这样的开源解决方案。甚至现有数据库也可以用向量搜索功能进行增强，Redis、Elasticsearch和Postgres（使用pgvector扩展名）就是例子。核心检索机制通常由像Meta AI的FAISS或Google Research的ScaNN这样的库驱动，这些库对于这些系统的效率至关重要。

RAG的挑战:尽管RAG模式强大，但它也面临着挑战。当回答查询所需的信息不局限于单个块，而是遍布文档的多个部分，甚至是多个文档时，就会产生主要问题。在这种情况下，检索器可能无法收集所有必要的上下文，导致答案不完整或不准确。系统的有效性还高度依赖于分块和检索过程的质量；如果检索不相关的块，可能会引入噪声并混淆LLM。此外，有效地综合来自可能相互矛盾的来源的信息，仍然是这些系统面临的一个重大障碍。除此之外，另一个挑战是，RAG需要对整个知识库进行预处理，并将其存储在专门的数据库中，例如矢量或图形数据库，这是一项相当大的任务。因此，需要定期对这些知识进行核对，以保持最新状态，这是处理不断变化的来源（如公司wiki）时的关键任务。整个过程会对性能产生显著影响，增加延迟、运营成本和最终提示中使用的代币数量。

总之，检索增强生成（RAG）模式代表着在使AI更加知识渊博和可靠方面的一次重大飞跃。通过将外部知识检索步骤无缝地集成到生成过程，RAG解决了独立的LLMs的一些核心限制。嵌入和语义相似的基本概念，结合关键字和混合搜索等检索技术，使系统能够智能地查找相关信息，并通过战略分块使其易于管理。整个检索过程由专门的矢量数据库提供支持，这些数据库旨在大规模存储和高效查询数百万个嵌入内容。尽管在检索零散或相互矛盾的信息方面仍存在挑战，但RAG能够使LLMs生成不仅符合语境、而且基于可验证事实的答案，从而增强AI的可信度和实用性。

图形 RAG:GraphRAG 是一种高级形式的检索增强生成，它利用知识图而不是简单的矢量数据库进行信息检索。它通过在结构化知识库中导航数据实体（节点）之间的显式关系（边缘）来回答复杂的查询。一个关键优势是它能够从多个文档中碎片化的信息中合成答案，这是传统RAG的常见缺陷。通过理解这些联系， GraphRAG 提供了更准确和细致的上下文响应。

使用案例包括复杂的财务分析、将公司与市场事件联系起来，以及用于发现基因与疾病之间关系的科学研究。然而，主要缺点是构建和维护高质量知识图表需要显著的复杂性、成本和专业知识。与更简单的矢量搜索系统相比，这种设置的灵活性也较低，并且可能会引入更高的延迟。系统的有效性完全取决于底层图形结构的质量和完整性。因此， GraphRAG 可以为复杂的问题提供出色的上下文推理，但实施和维护成本要高得多。总之，在深度、相互关联的见解比标准RAG的速度和简单性更重要的情况下，它表现得尤为出色。

代理RAG：这种模式的演变过程被称为Agentic RAG （见图2），引入了推理和决策层，显著增强了信息提取的可靠性。一个"代理"-一种专门的AI组件-不仅负责检索和增强信息，还扮演着知识的关键守门人和精炼者的角色。该代理不是被动地接受初始检索的数据，而是主动地询问其质量、相关性和完整性，如下面场景所示。

首先，代理擅长反射和源验证。如果用户问:“我们公司关于远程工作的政策是什么？”标准的RAG可能会在官方2025年政策文件旁边发布一篇2020年的博客文章。然而，代理会分析文档的元数据，承认2025政策是最最新和最权威的来源，并丢弃过时的博客文章，然后将正确的上下文发送到LLM以获取精确的答案。

图2:Agentic RAG引入了一个推理代理，该代理可以主动评估、协调和优化检索到的信息，以确保获得更准确和可信的最终响应。

第二，代理人善于调和知识冲突。想象一个金融分析师问，“Alpha项目Q1的预算是多少？”该系统检索两份文件:一份初步提案，说明预算为50，000欧元，另一份最终财务报告，列明预算为65，000欧元。代理RAG将识别这一矛盾，优先考虑财务报告作为更可靠的来源，并向LLM提供经过验证的数字，确保最终答案基于最准确的数据。

第三，代理人可以进行多步骤推理，合成复杂的答案。如果用户问:“我们的产品的功能和价格与竞争对手X的相比如何？”代理会将这些问题分解为不同的子问题。它将启动对自身产品特性、定价、竞争对手X特性和竞争对手X定价的不同搜索。在收集这些单独的信息片段后，代理将它们综合成一个结构化的比较上下文，然后将其反馈给LLM，从而实现简单检索无法产生的全面响应。

第四，代理人可以识别知识差距并使用外部工具。假设一个用户问:“市场对我们昨天推出的新产品立即有什么反应？”代理人搜索每周更新的内部知识库，没有找到相关信息。认识到这一差距后，它可以激活一个工具（如实时网络搜索API）来查找最近的新闻文章和社交媒体情绪。然后，代理使用这些新收集到的外部信息来提供最新的答案，克服其静态内部数据库的局限性。

Agentic RAG的挑战:代理层虽然功能强大，但也带来了一系列挑战。主要缺点是复杂性和成本显著增加。设计、实现和维护代理的决策逻辑和工具集成需要大量的工程工作，并增加计算费用。这种复杂性还可能导致延迟增加，因为代理的反射、工具使用和多步推理周期比标准的直接检索过程需要更多的时间。此外，代理本身可能成为新的错误来源；有缺陷的推理过程可能导致它陷入无用的循环，误解任务，或不当丢弃相关信息，最终降低最终响应的质量。

总结如下：代理RAG代表了标准检索模式的复杂演变，它从一个被动的数据管道转变为一个主动的、解决问题的框架。通过嵌入一个推理层，该层可以评估来源、协调冲突、分解复杂问题并使用外部工具，代理可以显著提高生成答案的可靠性和深度。这一进步使AI更加可靠和高效，但同时也伴随着系统复杂性、延迟和成本等重要权衡，这些方面必须得到仔细管理。

应用案例

知识检索（RAG）正在改变大型语言模型（LLMs）在各个行业中的应用方式，增强它们提供更准确和上下文相关的响应的能力。

应用包括：

● 企业搜索和问答:组织可以开发内部聊天机器人，利用人力资源政策、技术手册和产品规格等内部文档来回应员工的询问。RAG系统从这些文档中提取相关部分，以通知LLM的响应。

● 客户支持和帮助台:基于RAG的系统可以通过访问产品手册、常见问题（FAQs）和支持票据中的信息，为客户查询提供精确和一致的响应。这可以减少对日常问题直接人工干预的必要性。

● 个性化内容推荐：RAG可以识别和检索在语义上与用户的偏好或之前的交互相关的内容（文章、产品），从而提供更相关的建议，而不是基本的关键词匹配。

● 新闻及时事摘要:LLMs可以与实时新闻推送集成。当被提示有关当前事件时，RAG系统会检索最近的文章，从而使LLM生成最新的摘要。

通过整合外部知识，RAG将LLMs的能力扩展到简单的通信之外，以发挥知识处理系统的功能。

小结

定义：LLMs拥有令人印象深刻的文本生成能力，但从根本上受到其训练数据的限制。这些知识是静态的，这意味着它不包括实时信息或特定领域的私有数据。因此，他们的答复可能过时、不准确或缺乏专门任务所需的具体背景。对于需要当前和事实答案的应用程序，这种差距限制了它们的可靠性。

原理：检索增强生成（RAG）模式通过将LLMs与外部知识源连接，提供了一个标准化的解决方案。当接收到查询时，系统首先从指定的知识库中检索相关信息片段。然后将这些片段附加到原始提示中，以及时和具体的上下文丰富它。然后，将此增强提示发送到LLM，使其能够生成准确、可验证且基于外部数据的响应。这一过程有效地将 LLM 从封闭书面推理器转变为开放书面推理性，显著提高了其实用性和可信度。

经验：当您需要一个LLM来回答问题或基于不属于其原始培训数据的特定、最新或专有信息生成内容时，可以使用此模式。它非常适合在内部文档、客户支持机器人和应用程序上构建问答系统，这些应用程序需要可验证的、基于事实且附有引用的响应。

知识检索模式: 一种AI代理，用于从结构化数据库中查询和检索信息

关键点

● 知识检索（RAG）通过允许LLMs访问外部的、最新的和特定的信息来增强它们。

● 该过程包括检索（在知识库中搜索相关片段）和增强（将这些片段添加到LLM的提示中）。

● RAG帮助LLMs克服过时的培训数据等限制，减少“幻觉”，并实现特定领域的知识集成。

● RAG允许可归因的答案，因为LLM的响应基于检索到的源。

● GraphRAG 利用知识图理解不同信息之间的关系，从而能够回答需要综合来自多个来源的数据的复杂问题。

● 代理式RAG超越了简单的信息检索，通过使用智能代理主动推理、验证和提炼外部知识，确保得到更准确和可靠的答案。

● 实际应用涵盖企业搜索、客户支持、法律研究和个性化推荐。

结论

总之，检索增强生成（RAG）通过将大语言模型的静态知识与外部的最新数据源连接，解决了其核心局限性。该过程首先检索相关信息片段，然后增强用户的提示，使LLM能够生成更准确和语境感知的响应。这得益于嵌入、语义搜索和矢量数据库等基础技术，这些技术基于意义而非仅仅是关键字来查找信息。通过将输出基于可验证的数据，RAG显著减少了事实错误，并允许使用专有信息，通过引用增强了信任。

一个高级进化，Agentic RAG，引入了一个推理层，该层可以主动验证、协调和综合检索到的知识，以提高可靠性。同样，像 GraphRAG 这样的专门方法利用知识图来导航显式数据关系，使系统能够综合对高度复杂、相互关联的查询的答案。此代理可以解决冲突信息，执行多步查询，并使用外部工具查找缺失的数据。虽然这些高级方法增加了复杂性和延迟，但它们极大地提高了最终响应的深度和可信度。这些模式的实际应用已经在改变行业，从企业搜索和客户支持到个性化内容交付。尽管存在挑战，RAG是使AI更具知识性、可靠性和实用性的关键模式。最终，它将LLMs从封闭的书面对话者转变为强大的、开放的书面推理工具。

如何学习大模型 AI ？

我国在AI大模型领域面临人才短缺，数量与质量均落后于发达国家。2023年，人才缺口已超百万，凸显培养不足。随着Al技术飞速发展，预计到2025年，这一缺口将急剧扩大至400万，严重制约我国Al产业的创新步伐。加强人才培养，优化教育体系，国际合作并进，是破解困局、推动AI发展的关键。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

2025最新大模型学习路线

明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛，没有明确的学习路线可能会导致新人感到迷茫，不知道应该专注于哪些内容。

对于从来没有接触过AI大模型的同学，我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

在这里插入图片描述

针对以上大模型的学习路线我们也整理了对应的学习视频教程，和配套的学习资料。

大模型经典PDF书籍

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路！

在这里插入图片描述

配套大模型项目实战

所有视频教程所涉及的实战项目和项目源码等
在这里插入图片描述

博主介绍＋AI项目案例集锦

MoPaaS专注于Al技术能力建设与应用场景开发，与智学优课联合孵化，培养适合未来发展需求的技术性人才和应用型领袖。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

为什么要学习大模型？

2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

在这里插入图片描述

适合人群

在校学生：包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础，有志于深入AGI大模型行业，希望开展相关的研究和开发工作。
IT行业从业人员：包括在职或失业者，涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验，至少1年以上的编程工作经验，对大模型技术感兴趣或有业务需求，希望通过课程提升自身在IT领域的竞争力。
IT管理及技术研究领域人员：包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势，主导技术创新，推动大模型技术在企业业务中的应用与改造。
传统AI从业人员：包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作，现需要快速补充大模型技术能力，获得大模型训练微调的实操技能，以适应新的技术发展趋势。

课程精彩瞬间

大模型核心原理与Prompt：掌握大语言模型的核心知识，了解行业应用与趋势；熟练Python编程，提升提示工程技能，为Al应用开发打下坚实基础。

RAG应用开发工程：掌握RAG应用开发全流程，理解前沿技术，提升商业化分析与优化能力，通过实战项目加深理解与应用。

Agent应用架构进阶实践：掌握大模型Agent技术的核心原理与实践应用，能够独立完成Agent系统的设计与开发，提升多智能体协同与复杂任务处理的能力，为AI产品的创新与优化提供有力支持。

模型微调与私有化大模型：掌握大模型微调与私有化部署技能，提升模型优化与部署能力，为大模型项目落地打下坚实基础。