RagFlow源码解析
文章平均质量分 95
chouchoubuchou
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
RAGFlow Agent 知识检索节点源码解析:从粗排到精排的完整流程
文本检索:基于关键词匹配,擅长精确匹配和术语查找向量检索:基于语义相似度,擅长理解查询意图和同义词匹配Embedding 检索方法通过分别编码 Query 和 Chunk 得到向量,并用余弦相似度评估相关性。优点是可以提前计算Chunk的向量并存储,检索效率高、可大规模向量召回,适合在粗排阶段使用。但这种独立编码方式无法建模两者之间的语义交互。而 Rerank 模型会将 Query 和 Chunk 作为一个成对的输入,同时送入模型进行处理。原创 2025-08-01 15:52:43 · 1839 阅读 · 0 评论 -
Ragflow 文档处理深度解析:从解析到存储的完整流程
说明:每个 Chunk 的 embedding 向量为 文档标题文本的 embedding 向量乘以 0.1,和 Chunk 的内容文本的 embedding 向量乘以 0.9 的和。其中 Chunk 的内容文本优先设置为对该Chunk的AI提取出的问题,如果没有指定自动问题提取数量,则问题为空,此时才会使用原始的 Chunk 文本。如果指定数量不为 0,那么在基础的文档解析完成后,Ragflow 还会调用AI服务来增强chunk的语义信息。其它解析器不再一一展开介绍,需要用到的时候可以读对应源码。原创 2025-07-29 17:22:37 · 2223 阅读 · 0 评论
分享