本地知识库RAG的基础知识

一、对RAG的思想认识

1.知识库不是百科全书,不是知识越多越好。

如果一个知识库像是百科全书,包罗万象,那实际效果往往会适得其反。

(1)结构化差异:知识库最好以三元组(实体-关系-实体)形式组织。例如:(阿斯匹林,适用症状,头痛),而不是自然语言段落的陈述文字。

(2)场景聚焦:围绕高频问题筛选内容,目标必须专业、专注。

2.算法模型不是关键因素,数据质量才是胜负关键。

以deepseek为例,就是因为训练数据的高质量才决定了训练成本的控制和呈现效果。

数据与模型的关系:

优质数据可以使得普通模型发挥80%的效果。

劣质数据会让顶级模型性能下降50%以上。

3.部署完成并不是项目的结束,系统也需要“新陈代谢”。

(1)有的数据具有时效性,要根据时间的变化更新数据。

(2)更新触发机制:可以定时更新(例如每周抓取官网公告),也可以事件驱动更新(检测到政策文件修订后自动触发)。

4.文档内容的解读并不是对文档的全面理解解读,只是简单的匹配。

RAG在处理文本逻辑关系时,主要依赖文本中的词、句及向量模型的语义提取能力,系统无法理解文章的隐喻结构和叙事逻辑,只是机械的匹配字面内容。

5.RAG做不到复杂的整理分析和推理。

RAG把数据当作数据的搬运,因为系统缺乏数值计算和趋势分析的内置能力。

6.结构化数据。

PDF、word、excel等都不是结构化的数据,直接将这些文档丢给RAG知识库,知识库并不能有效的提取准确、完整的信息。

结构化改造方案

原始格式

问题表现

改造方法

PDF扫描件

文字错位,图片不识别

OCR识别+人工校验

PPT文档

图文分离

拆分为文本+独立图片库+OCR

Excel表格

关联断裂

转存为CSV并建立外键关联

误区对照诊断表

误区类型

你的症状

危险指数

自查方法

电子书妄想症

把小说当说明书用

★★★☆☆

检查问答是否总是描写那几段落打转

搜索依赖症

提问像在用百度

★★★★☆

观察答案是否大段复制原文

数据透视幻觉

要求做回归分析

★★★★★

测试"增长率计算"等基础问题

文档扫描误区

让RAG当计数器

★★☆☆☆

尝试"统计关键词出现次数"

优秀的RAG系统如同精心培育的生态系统,需要持续注入高质量数据养分(结构化知识)、修剪冗余枝干(数据清洗)、防御外部威胁(安全加固)。

RAG本地知识库的真相往往是:我们与它之间,隔着整个认知壁垒。

二、RAG温度设置

RAG知识库系统中,检索、重排序、生成每一步都很关键。在生成过程中温度temperature是一个非常关键的参数。

1.温度temperature的作用:控制AI的泛化,即“想象力”。

2.温度的原理:概率选择遥控器

生成模型每次预测下一个字时,都会列出一堆候选词的概率,控制温度,就是控制候选词出现的概率,控制模型的泛化能力。

3.如何选择温度值:根据场景制定温度值。

  • 查资料/法律咨询(0.1-0.3)
    像写论文——宁可死板也不能出错,严谨是第一位。
  • 营销文案/故事创作(0.7-1.0)
    像广告公司头脑风暴——说不定会有一个神来之笔
  • 聊天机器人(0.4-0.6)
    像朋友聊天——既不死板也不胡扯。

温度是AI模型的性格调节器,温度不改变事实,只改变说话和表达的方式。温度决定了你的AI是一个一丝不苟的专家学者,还是一个天马行空的艺术家。

### 使用 DeepSeek-R1 构建本地RAG知识库 #### 准备工作 为了成功构建基于 DeepSeek-R1 的本地RAG (检索增强生成) 系统以及相应的知识库,前期准备工作至关重要。这包括但不限于获取必要的软件组件和技术资源。 - **模型准备**:选择合适的预训练语言模型作为基础架构的一部分[^1]。 - **部署环境设置**:确保拥有稳定的计算平台来运行这些复杂的算法流程;对于 Windows 用户来说,则可以通过官方提供的 OllamaSetup.exe 来简化这一过程[^2]。 ```bash wget https://github.com/ollama/ollama/releases/download/v0.5.11/OllamaSetup.exe chmod +x OllamaSetup.exe ./OllamaSetup.exe ``` #### 安装与配置 完成上述准备工作之后,接下来就是具体实施阶段: - **安装 Ollama 工具链**:按照指引执行安装程序,并根据提示完成初始化设定。 - **加载嵌入式模型**:通过指定路径导入预先训练好的向量表示形式文件至系统内核中以便后续操作调用。 #### 文档处理及索引建立 针对目标领域内的资料集进行清理加工,去除冗余信息并统一格式标准,随后借助自然语言处理手段将其转化为结构化的特征表达——即所谓的“向量化”。最终形成可供快速查询匹配的知识图谱或数据库实例。 - 将收集到的数据源经过清洗、分词等一系列预处理步骤后输入给定框架下的编码器部分; - 输出的结果会被存储于特定位置等待下一步骤的应用场景需求触发访问请求时提供服务支持。 #### 实现高效检索与生成能力 当一切就绪以后,就可以着手开发应用程序接口(API),允许外部系统提交查询指令并通过内部机制找到最贴切的答案片段返回给用户端展示出来。与此同时,在线学习模块也会不断积累经验教训从而优化整个系统的性能表现。 ```python from ollama import EmbeddingModel, Retriever model = EmbeddingModel.load("path/to/embeddings") # 加载已有的嵌入模型 retriever = Retriever(model) query_vector = model.encode(["example query"]) results = retriever.search(query_vector) for result in results: print(result['text']) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值