【AI落地应用实战】RAGFlow + 知识图谱 + Deepseek 初步探索

最新推荐文章于 2025-08-04 22:53:50 发布

原创

最新推荐文章于 2025-08-04 22:53:50 发布 · 1.2k 阅读

CC 4.0 BY-SA版权

文章标签：

人们对 LLM + RAG 的期望其实是很高的 ，认为它可能会颠覆知识产业。

从逻辑上讲，这么想是有些道理的，LLM已经吃进去了互联网上所有的公开数据，而RAG机制则构建了动态的知识增强回路，相当于学到了数据里面所表示的知识 ，自然可以解答信息或知识层面的「任何」问题，理论上似乎是确实能端到端地做掉的。

但是从另一方面来说，知识的运用远非简单的数据检索游戏。

如果只是把一堆文件扔给学生，而不教给他们如何理解和分析，他们真的能找到问题的答案吗？

用RAG搭建过知识库就知道，在使用RAG搭建知识库的时候，整个索引、检索是基于文本块的 ，当有请求过来的时候，RAG首先根据请求去寻找哪些文本块是最相关、最匹配的，再把找到的文本块作为参考资料，连同请求一起给到大模型 。

在这里插入图片描述

这种流程是极度依赖于基于相似度的向量检索技术，存在几个核心问题：

知识结构的空心化 ：人类专家的知识体系是立体建构的，既有学科主干脉络，又能自由调用跨领域知识节点 。而LLM的知识表征更接近平面化的概率分布 ，当处理需要深度领域知识交叉的问题时，容易暴露概念关联的脆弱性。举个例子，用户询问“哪些药物可以治疗高血压？”，而知识库中有一段描述“β受体阻滞剂可以降低心率，从而减轻心脏负担”。尽管这段文本与高血压治疗相关，但由于未明确提及“高血压”，传统RAG可能根本无法将其纳入检索结果。
逻辑推理链条的断裂 ：LLM都是通过概率建模习得知识的表层特征，在面对需多步推演的任务 （比如桥梁设计需同步整合地质勘探报告、荷载计算模型与环保法规等等流程）时，模型容易陷入"知识拼贴"的陷阱，很多时候，其更像博闻强记的策展人，而非真正意义上的思考者 。
TopK截断问题 ：在检索过程中，系统通常只保留相似度最高的TopK个文档片段。而对于全局性问题往往涉及到非常多的上下文文档，这种截断策略可能导致与查询相关但相似度较低的文档被忽略 ，生成答案时遗漏重要内容。

对应以上核心技术问题就会导致两个很普遍的现象：