【收藏级】RAG技术从入门到精通，跟着字节跳动学实践，这一篇就够了！

原创于 2025-12-04 11:08:33 发布 · 395 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #人工智能 #知识图谱 #机器学习 #深度学习

在大模型时代，如何高效地存储、管理和分析海量数据，是每个企业亟待解决的问题。我们将深入探讨 RAG 技术的各个环节，从技术简介到实践应用。

RAG 的工作原理
高性能向量检索技术
全文检索 & 混合检索
GraphRAG 实践

一、RAG技术

RAG技术是一种将检索（Retrieval）和生成（Generation）相结合的方法。它通过检索模块从海量数据中快速找到与问题相关的文档片段，然后利用生成模块对这些片段进行整合和优化，最终生成高质量的答案。

1.Naive RAG

最基础的RAG实现方式，直接将检索到的文档片段输入到生成模型中，生成答案。这种方法简单直接，但在处理复杂问题时可能不够灵活。

2.Hybrid Search（混合检索）

结合向量检索（语义检索）和全文检索（关键词检索）的优点，同时考虑语义和关键词信息，提升检索的准确性和效率。

3.GraphRAG

将文本数据通过大模型转化为图结构，利用图的关联性检索全局信息。这种方法适合处理涉及多个实体和关系的问题，例如：“哪些公众人物在各种娱乐文章中被反复提及？”

4.Agentic RAG

一种更智能的RAG实现方式，通过代理（Agent）决定是否需要检索，以及如何处理检索结果。它可以根据问题的复杂性动态调整检索和生成策略。具体实现可以参考LangGraph的Agentic RAG教程。

5.Adaptive RAG

通过学习问题的复杂性，动态调整检索策略的RAG方法。这种方法能够根据问题的具体需求，灵活调整检索和生成的流程，提升系统的适应性。

二、RAG 相关技术需求

RAG技术的核心目标是解决大模型在利用外部知识时面临的挑战，主要包括以下几点：

如何获取准确的相关数据

在海量的外部知识库中，如何快速、准确地找到与问题相关的信息，是RAG技术的关键。这不仅需要高效的检索技术，还需要确保检索结果的相关性和准确性。

如何让大模型有效利用检索数据

检索到的数据需要与大模型的生成能力相结合。如何将检索到的信息高效地融入生成过程中，使生成的答案既准确又符合用户需求，是RAG技术的核心挑战。

性能优化在实际应用中，RAG系统的性能至关重要。如何优化数据处理流程，提升检索和生成的速度，是RAG技术需要解决的另一个

三、RAG技术的关键环节

1.数据处理

数据处理是RAG技术的基础，主要包括以下步骤：

文本切分：将长文本切分为适合检索和生成的片段，确保每个片段都能提供有效的上下文。
向量提取：通过嵌入模型将文本转换为向量表示，便于后续的相似度计算。

2.高性能检索技术

RAG技术依赖于高效的检索技术，主要包括以下几种：

向量检索（Dense & Sparse）：通过向量空间模型，快速找到与查询最相似的文档。
全文检索（关键词搜索）：基于关键词的检索技术，适用于处理明确的查询。
图检索：利用图结构的关联性，检索全局信息。
结构化信息检索：针对结构化数据的检索，适用于处理表格和数据库。

3.大模型交互与性能优化

Prompt Engineering：通过设计高效的提示模板，将检索结果与大模型的输入相结合。
Agents：引入智能代理（Agent），动态决定是否需要检索，以及如何处理检索结果。
SFT for RAG：通过监督微调（SFT），优化大模型对检索结果的利用。
Retrieval优化：优化检索模块，提升检索效率和准确性。
幻觉消除及推理优化：通过技术手段减少大模型生成中的幻觉问题，提升生成内容的可信度。

四、高性能向量检索技术

向量检索是一种基于向量空间模型的检索技术。它通过将文本或其他数据转换为高维向量，利用向量之间的相似度来衡量数据的相关性。与传统的关键词检索不同，向量检索能够更好地捕捉语义信息，从而实现更精准的检索效果。

在自然语言处理中，向量检索主要用于以下几个场景：

语义搜索：通过将文本嵌入到向量空间，用户可以使用自然语言查询，系统会返回语义最相关的文档。
推荐系统：利用向量检索技术，可以根据用户的历史行为和偏好，推荐最相关的商品或内容。
知识图谱：通过向量检索，可以快速找到与目标实体或关系最相关的知识片段。

方法类型	优点	缺点	适用场景
基于表的结构	简单高效	数据量大时效率低	小规模数据检索
基于哈希的结构	检索速度快	准确性可能降低	大规模数据检索
基于树的结构	检索效率高	构建索引复杂	中等规模数据检索
基于聚类的结构	处理大规模数据	构建索引复杂	大规模数据检索
基于图的结构	检索速度快，准确性高	构建索引复杂	大规模复杂数据检索

1.基于表的结构（Table-based）

基于表的结构通过将向量存储在表格中，利用哈希表等数据结构快速定位目标向量。这种方法的优点是简单高效，但随着数据量的增加，检索效率会逐渐下降。

2.基于哈希的结构（LSH）

局部敏感哈希（LSH）是一种通过哈希函数将相似向量映射到相同或相近的哈希值的方法。LSH 的优点是检索速度快，适用于大规模数据集，但可能会牺牲一定的准确性。

3.基于树的结构（Tree-based）

基于树的结构（如 KD-Tree 和 Annoy）通过构建树形索引，将向量空间划分为多个区域。这种方法的优点是检索效率高，能够快速定位到目标向量，但构建索引的过程较为复杂。

4.基于聚类的结构（Cluster-based）

基于聚类的结构（如 IVF、SCANN 和 SPANN）通过将向量空间划分为多个聚类，利用聚类中心快速定位目标向量。这种方法的优点是能够处理大规模数据集，并且检索效率较高。

5.基于图的结构（Graph-based）

基于图的结构（如 HNSW、NSG 和 DiskANN）通过构建图结构，将相似向量连接起来，形成一个高效的检索网络。这种方法的优点是检索速度快，能够处理复杂的向量空间，同时保持较高的准确性。

6.ANN结构：基于聚类的向量索引

在处理大规模数据集时，向量索引的内存占用是一个关键问题。向量压缩技术通过减少向量的存储空间，以牺牲部分精度为代价，来优化内存使用。

五、ByteHouse

ByteHouse通过自研优化器和高并发点查技术，显著提升了查询效率。在TPC-DS标准测试中，ByteHouse的查询性能比行业主流开源产品高出16%。

ByteHouse Vector Search的一大亮点是其统一化的向量接入层。这种设计使得ByteHouse能够方便地接入多种类型的索引，包括但不限于：

HNSW（Hierarchical Navigable Small World）：一种基于图的高效近似最近邻搜索索引，适用于大规模数据集。
HNSWSQ（HNSW + Scalar Quantization）：结合标量量化技术，进一步优化存储和检索性能。
IVF_PQ_FS（Inverted File + Product Quantization + Filtered Search）：通过聚类和乘积量化技术，实现高效的向量检索。

ByteHouse不仅支持单独的向量检索和全文检索，还支持混合搜索（Hybrid Search），将两者的优势结合起来。混合搜索方法包括：

RRF（Reciprocal Rank Fusion）：基于排名融合，综合向量检索和全文检索的结果。
MinMax：基于分数融合，取向量检索和全文检索的最高分数作为最终结果。

路、GraphRAG：全局信息检索的新时代

GraphRAG通过引入图结构，将实体和关系以图的形式表示，从而能够更好地处理复杂问题。在GraphRAG中，每个实体是一个节点，每个关系是一条边。通过图检索，我们可以从局部信息扩展到全局信息，从而更准确地回答问题。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【`保证100%免费`】