高阶RAG技巧（一）索引优化：数据预处理、分块技巧

最新推荐文章于 2025-08-26 22:14:13 发布

原创最新推荐文章于 2025-08-26 22:14:13 发布 · 1.1k 阅读

·

22

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #语言模型 #自然语言处理 #AI大模型 #agi #LLM #RAG

RAG 为 LLM 提供来自外部知识源的信息，以帮助减少幻觉并提高生成响应的事实准确性。

一个简单的 RAG 流水线由四个组件组成：嵌入模型、向量数据库、提示模板和 LLM。在推理时，它会嵌入用户查询以从向量数据库中检索相关文档信息块，并将其填充到 LLM 的提示中以生成答案。

虽然这种简单的方法很简单，但它有很多局限性，而且往往会导致低质量的响应。

本文讨论了我们可以应用的各种高级技术来提高 RAG 系统的性能。这些技术可以应用于 RAG 流水线的各个阶段，如下所示：

一、索引优化

索引优化技术通过以更有条理、更易于搜索的方式构建外部数据来提高检索准确性。这些技术可以应用于 RAG 流水线中的数据预处理和分块阶段，确保有效检索相关信息。

1、数据预处理（Data Pre-Processing）

数据预处理是任何 RAG 系统成功的基础，因为处理后数据的质量直接影响整体性能。通过精心将原始数据转换为适合 LLM 的结构化格式，我们可以在考虑更复杂的优化之前显著提高系统的效率。

虽然有几种常见的预处理技术可用，但最佳方法和顺序应根据我们的特定用例和要求进行量身定制。

该过程通常从数据采集和集成开始，也就是从多个来源收集各种文档类型并将其整合到“知识库”中。

数据提取和解析（Data Extraction & Parsing）

在原始数据上进行数据提取和解析，以便为下游任务准确处理数据。对于 Markdown、Word 文档和纯文本等基于文本的格式，提取技术侧重于在捕获相关内容的同时保留结构。

包含基于图像的文本/表格的扫描文档、图像和 PDF 需要 OCR（Optical Character Recognition，光学字符识别）技术才能转换为 LLM 可用的格式。然而，多模态检索模型（如 ColPali 和 ColQwen）的最新进展彻底改变了这一过程。这些模型可以直接嵌入文档图像，可能会使传统的 OCR 过时。

Web 内容通常涉及 HTML 解析，利用 DOM 遍历来提取结构化数据，而电子表格则需要专门的解析来处理单元格关系。元数据提取在文件类型中也至关重要，它会提取作者、时间戳和其他文档属性等关键详细信息（后面的元数据过滤部分会详细说一下）。

数据清洗和降噪（Data Cleaning & Noise Reduction）

数据清洗和降噪包括删除不相关的信息（例如页眉、页脚或样板文本）、纠正不一致之处以及处理缺失值，同时保持提取数据的结构完整性。

数据转换（Data Transformation）

无论原始文件类型如何，这一步将所有提取和处理的内容转换为标准化架构。正是在此阶段发生文档分区（不要与分块混淆），将文档内容分成逻辑单元或元素（例如段落、部分、表格）。

2、分块技巧（Chunking Strategies）

分块将大型文档划分为较小的、语义上有意义的片段。此过程通过平衡上下文保留和可管理的块大小来优化检索。RAG 中存在各种有效分块的常用技术，下面将讨论其中一些技术：

固定大小分块（Fixed-size chunking）是一种简单的技术，无论内容结构如何，它都会将文本拆分成预定大小的块。虽然这种方法成本低廉，但缺乏上下文感知能力。可以使用重叠块来改进这一点，让相邻的块共享一些内容。

递归分块（Recursive chunking）提供了更大的灵活性，它首先使用主分隔符（如段落）拆分文本，然后如果分块仍然太大，则应用次要分隔符（如句子）。此技术尊重文档的结构，并能很好地适应各种用例。

基于文档（Document-based chunking）的分块根据文档中的自然划分（例如标题或章节）创建分块。它对于 HTML、Markdown 或代码文件等结构化数据特别有效，但当数据缺乏明确的结构元素时用处不大。

语义分块（Semantic chunking）将文本划分为有意义的单元，然后将其矢量化。然后根据嵌入之间的余弦距离将这些单元组合成块，每当检测到显著的上下文变化时，就会形成一个新的块。这种方法平衡了语义连贯性和块大小。

基于 LLM 的分块（LLM-based chunking）是一种先进的技术，它使用 LLM 通过处理文本并创建语义上独立的句子或命题来生成块。虽然它非常准确，但它也是计算要求最高的一种方法。

上述每种技术都有其优势，具体选择取决于 RAG 系统的具体要求和所处理文档的性质。新方法不断涌现，例如后期分块（late chunking），它先通过长上下文嵌入模型处理文本，然后再将其拆分为块，以更好地保留文档范围内的上下文。

如何系统学习掌握AI大模型？

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包，有需要的小伙伴可以微信扫描下方优快云官方认证二维码，免费领取【保证100%免费】

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。