本地知识库RAG的基础知识

京国问道

于 2025-03-30 09:49:49 发布

阅读量505

点赞数 19

分类专栏：离线部署dify 文章标签： RAG 知识库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_71240768/article/details/146720349

版权

离线部署dify 专栏收录该内容

7 篇文章

订阅专栏

一、对RAG的思想认识

1.知识库不是百科全书，不是知识越多越好。

如果一个知识库像是百科全书，包罗万象，那实际效果往往会适得其反。

（1）结构化差异：知识库最好以三元组（实体-关系-实体）形式组织。例如：（阿斯匹林，适用症状，头痛），而不是自然语言段落的陈述文字。

（2）场景聚焦：围绕高频问题筛选内容，目标必须专业、专注。

2.算法模型不是关键因素，数据质量才是胜负关键。

以deepseek为例，就是因为训练数据的高质量才决定了训练成本的控制和呈现效果。

数据与模型的关系：

优质数据可以使得普通模型发挥80%的效果。

劣质数据会让顶级模型性能下降50%以上。

3.部署完成并不是项目的结束，系统也需要“新陈代谢”。

（1）有的数据具有时效性，要根据时间的变化更新数据。

（2）更新触发机制：可以定时更新（例如每周抓取官网公告），也可以事件驱动更新（检测到政策文件修订后自动触发）。

4.文档内容的解读并不是对文档的全面理解解读，只是简单的匹配。

RAG在处理文本逻辑关系时，主要依赖文本中的词、句及向量模型的语义提取能力，系统无法理解文章的隐喻结构和叙事逻辑，只是机械的匹配字面内容。

5.RAG做不到复杂的整理分析和推理。

RAG把数据当作数据的搬运，因为系统缺乏数值计算和趋势分析的内置能力。

6.结构化数据。

PDF、word、excel等都不是结构化的数据，直接将这些文档丢给RAG知识库，知识库并不能有效的提取准确、完整的信息。

结构化改造方案：

原始格式	问题表现	改造方法
PDF扫描件	文字错位，图片不识别	OCR识别+人工校验
PPT文档	图文分离	拆分为文本+独立图片库+OCR
Excel表格	关联断裂	转存为CSV并建立外键关联

误区对照诊断表

误区类型	你的症状	危险指数	自查方法
电子书妄想症	把小说当说明书用	★★★☆☆	检查问答是否总是描写那几段落打转
搜索依赖症	提问像在用百度	★★★★☆	观察答案是否大段复制原文
数据透视幻觉	要求做回归分析	★★★★★	测试"增长率计算"等基础问题
文档扫描误区	让RAG当计数器	★★☆☆☆	尝试"统计关键词出现次数"

优秀的RAG系统如同精心培育的生态系统，需要持续注入高质量数据养分（结构化知识）、修剪冗余枝干（数据清洗）、防御外部威胁（安全加固）。

RAG本地知识库的真相往往是：我们与它之间，隔着整个认知壁垒。

二、RAG温度设置

RAG知识库系统中，检索、重排序、生成每一步都很关键。在生成过程中温度temperature是一个非常关键的参数。

1.温度temperature的作用：控制AI的泛化，即“想象力”。

2.温度的原理：概率选择遥控器

生成模型每次预测下一个字时，都会列出一堆候选词的概率，控制温度，就是控制候选词出现的概率，控制模型的泛化能力。

3.如何选择温度值：根据场景制定温度值。

查资料/法律咨询（0.1-0.3）：
像写论文——宁可死板也不能出错，严谨是第一位。
营销文案/故事创作（0.7-1.0）：
像广告公司头脑风暴——说不定会有一个神来之笔。
聊天机器人（0.4-0.6）：
像朋友聊天——既不死板也不胡扯。

温度是AI模型的性格调节器，温度不改变事实，只改变说话和表达的方式。温度决定了你的AI是一个一丝不苟的专家学者，还是一个天马行空的艺术家。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。