人们对 LLM + RAG 的期望其实是很高的 ,认为它可能会颠覆知识产业。
从逻辑上讲,这么想是有些道理的,LLM已经吃进去了互联网上所有的公开数据,而RAG机制则构建了动态的知识增强回路,相当于学到了数据里面所表示的知识 ,自然可以解答信息或知识层面的「任何」问题,理论上似乎是确实能端到端地做掉的。
但是从另一方面来说,知识的运用远非简单的数据检索游戏。
如果只是把一堆文件扔给学生,而不教给他们如何理解和分析,他们真的能找到问题的答案吗?
一、写在前面
1.1、传统RAG为什么表现不尽如意?
用RAG搭建过知识库就知道,在使用RAG搭建知识库的时候,整个索引、检索是基于文本块的 ,当有请求过来的时候,RAG首先根据请求去寻找哪些文本块是最相关、最匹配的,再把找到的文本块作为参考资料,连同请求一起给到大模型 。

这种流程是极度依赖于基于相似度的向量检索技术,存在几个核心问题:
- 知识结构的空心化 :人类专家的知识体系是立体建构的,既有学科主干脉络,又能自由调用跨领域知识节点 。而LLM的知识表征更接近平面化的概率分布 ,当处理需要深度领域知识交叉的问题时,容易暴露概念关联的脆弱性。举个例子,用户询问“哪些药物可以治疗高血压?”,而知识库中有一段描述“β受体阻滞剂可以降低心率,从而减轻心脏负担”。尽管这段文本与高血压治疗相关,但由于未明确提及“高血压”,传统RAG可能根本无法将其纳入检索结果。
- 逻辑推理链条的断裂 :LLM都是通过概率建模习得知识的表层特征,在面对需多步推演的任务 (比如桥梁设计需同步整合地质勘探报告、荷载计算模型与环保法规等等流程)时,模型容易陷入"知识拼贴"的陷阱,很多时候,其更像博闻强记的策展人,而非真正意义上的思考者 。
- TopK截断问题 :在检索过程中,系统通常只保留相似度最高的TopK个文档片段。而对于全局性问题往往涉及到非常多的上下文文档,这种截断策略可能导致与查询相关但相似度较低的文档被忽略 ,生成答案时遗漏重要内容。
对应以上核心技术问题就会导致两个很普遍的现象:
- 缺少事情之间关系的理解 :当需要关联不同信息以提供综合见解时,传统 RAG 很难将这些点连接起来。
- 缺乏整体视角 :当要求 RAG 全面理解大型知识库甚至单个大型文档的整体语义概念时,缺乏宏观视角。
1.2、为什么要在RAG中引入知识图谱?
知识图谱是对现实世界实体及其关系的结构化表示 。它们由两个主要部分组成:节点和边。节点表示独立的实体,例如人物、地点、物体或概念。而边则表示节点之间的关系,表示它们如何相互关联。

这种结构使 LLM 能够访问精确且与上下文相关的的数据,从而极大地提高了其生成信息丰富答案的能力,其核心优势在于:
-
捕捉复杂关系 :知识图谱能够表示实体间的多层次、多类型关系。例如,在医疗领域,知识图谱可以表示“药物-疾病-症状”之间的复杂关联。

最低0.47元/天 解锁文章
1214

被折叠的 条评论
为什么被折叠?



