一、对RAG的思想认识
1.知识库不是百科全书,不是知识越多越好。
如果一个知识库像是百科全书,包罗万象,那实际效果往往会适得其反。
(1)结构化差异:知识库最好以三元组(实体-关系-实体)形式组织。例如:(阿斯匹林,适用症状,头痛),而不是自然语言段落的陈述文字。
(2)场景聚焦:围绕高频问题筛选内容,目标必须专业、专注。
2.算法模型不是关键因素,数据质量才是胜负关键。
以deepseek为例,就是因为训练数据的高质量才决定了训练成本的控制和呈现效果。
数据与模型的关系:
优质数据可以使得普通模型发挥80%的效果。
劣质数据会让顶级模型性能下降50%以上。
3.部署完成并不是项目的结束,系统也需要“新陈代谢”。
(1)有的数据具有时效性,要根据时间的变化更新数据。
(2)更新触发机制:可以定时更新(例如每周抓取官网公告),也可以事件驱动更新(检测到政策文件修订后自动触发)。
4.文档内容的解读并不是对文档的全面理解解读,只是简单的匹配。
RAG在处理文本逻辑关系时,主要依赖文本中的词、句及向量模型的语义提取能力,系统无法理解文章的隐喻结构和叙事逻辑,只是机械的匹配字面内容。
5.RAG做不到复杂的整理分析和推理。
RAG把数据当作数据的搬运,因为系统缺乏数值计算和趋势分析的内置能力。
6.结构化数据。
PDF、word、excel等都不是结构化的数据,直接将这些文档丢给RAG知识库,知识库并不能有效的提取准确、完整的信息。
结构化改造方案:
原始格式 | 问题表现 | 改造方法 |
PDF扫描件 | 文字错位,图片不识别 | OCR识别+人工校验 |
PPT文档 | 图文分离 | 拆分为文本+独立图片库+OCR |
Excel表格 | 关联断裂 | 转存为CSV并建立外键关联 |
误区对照诊断表
误区类型 | 你的症状 | 危险指数 | 自查方法 |
电子书妄想症 | 把小说当说明书用 | ★★★☆☆ | 检查问答是否总是描写那几段落打转 |
搜索依赖症 | 提问像在用百度 | ★★★★☆ | 观察答案是否大段复制原文 |
数据透视幻觉 | 要求做回归分析 | ★★★★★ | 测试"增长率计算"等基础问题 |
文档扫描误区 | 让RAG当计数器 | ★★☆☆☆ | 尝试"统计关键词出现次数" |
优秀的RAG系统如同精心培育的生态系统,需要持续注入高质量数据养分(结构化知识)、修剪冗余枝干(数据清洗)、防御外部威胁(安全加固)。
RAG本地知识库的真相往往是:我们与它之间,隔着整个认知壁垒。
二、RAG温度设置
RAG知识库系统中,检索、重排序、生成每一步都很关键。在生成过程中温度temperature是一个非常关键的参数。
1.温度temperature的作用:控制AI的泛化,即“想象力”。
2.温度的原理:概率选择遥控器
生成模型每次预测下一个字时,都会列出一堆候选词的概率,控制温度,就是控制候选词出现的概率,控制模型的泛化能力。
3.如何选择温度值:根据场景制定温度值。
- 查资料/法律咨询(0.1-0.3):
像写论文——宁可死板也不能出错,严谨是第一位。 - 营销文案/故事创作(0.7-1.0):
像广告公司头脑风暴——说不定会有一个神来之笔。 - 聊天机器人(0.4-0.6):
像朋友聊天——既不死板也不胡扯。
温度是AI模型的性格调节器,温度不改变事实,只改变说话和表达的方式。温度决定了你的AI是一个一丝不苟的专家学者,还是一个天马行空的艺术家。