Dify 源码解析 (三)：RAG 核心——索引、切片与检索链路的深度实现

最新推荐文章于 2025-12-05 17:02:52 发布

原创最新推荐文章于 2025-12-05 17:02:52 发布 · 73 阅读

CC 4.0 BY-SA版权

文章标签：

78 篇文章

订阅专栏

49 篇文章

订阅专栏

在 Dify 的架构体系中，如果说 Workflow 是它的“四肢”，那么 RAG（检索增强生成）引擎就是它的“海马体”——负责记忆、组织并检索海量的私有知识。

本篇是 Dify 源码解析系列的第三章。我们将深入 api/core/rag 模块，剖析 Dify 如何将非结构化文档转化为机器可读的索引，以及在提问时如何通过混合检索（Hybrid Search）精准定位答案。

核心代码路径： api/core/rag

RAG 的第一步是 ETL（Extract, Transform, Load）。在 Dify 中，这一过程被高度抽象化，主要由 DatasetProcess 相关的类控制。

Dify 并不直接处理所有文件格式，而是依赖于通过工厂模式封装的解析器。

提取 (extractor): 支持 PDF, Word, Markdown, HTML 等多种格式。Dify 内部集成了 unstructured 等库来处理复杂的非结构化数据。
清洗 (cleaner): 在 core/rag/cleaner 中，逻辑主要集中在去除无效字符、乱码修复以及格式标准化上。

代码逻辑视点：

数据流并不是线性的，而是一个 Pipeline。当用户上传文件后，DatasetService 会触发 Celery 异步任务，调用 ExtractProcessor。

这是 RAG 效果的胜负手。Dify 的切片逻辑位于 core/rag/splitter 中。

字符级切分： 基于固定字符数（Fixed Size）和重叠窗口（Overlap）。这是最基础的兜底策略。
语义切分（父子索引）： Dify 实现了更高级的“父子切片”逻辑。
- Parent Chunk: 较大的文本块，用于保持上下文的完整性。
- Child Chunk: 较小的文本块，用于向量化以提高检索的精确度。
- 实现原理： 检索时匹配 Child Chunk，但返回给 LLM 的是其对应的 Parent Chunk。这解决了“检索精准度”与“上下文连贯性”之间的矛盾。

切片完成后，数据进入索引阶段。Dify 的设计哲学是**“存储层解耦”**。

在 core/rag/index_processor 和 core/rag/datasource/vdb 中，Dify 采用了典型的工厂模式适配多种向量数据库（Milvus, Weaviate, Qdrant, pgvector, Chroma 等）。

每个具体的 VDB 实现类都必须继承自 BaseVector 抽象基类，实现以下核心方法：

Embedding 过程并非单纯调用 OpenAI API。Dify 在 core/model_manager 中维护了 Embedding 模型的接口。

这是 core/rag 模块中最精彩的部分。单一的向量检索（Semantic Search）在面对专有名词或精确匹配时往往表现不佳，因此 Dify 引入了 混合检索（Hybrid Search）。

检索的入口通常位于 RetrievalService。

当一个 Query 传入时，Dify 的检索链路如下：

Query Rewrite (可选): 对用户问题进行改写或扩展（取决于配置）。
路由分发: 根据 Dataset 的配置，决定使用哪种检索策略。
并发执行:
- 向量检索 (Vector Search): 将 Query 向量化，在 VDB 中查找 Top K。
- 关键词检索 (Keyword Search): 利用倒排索引（如 Elasticsearch 或 jieba 分词后的数据库匹配）查找 Top K。
结果融合 (Fusion): 将两路结果合并。
重排序 (Rerank): 这一步是提升效果的关键。