AI大模型应用开发学习-6【20251019】

原创

已于 2025-10-31 20:01:17 修改 · 951 阅读

·

21

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #学习

于 2025-10-20 21:30:58 首次发布

学习目标：

学习内容：

✅ Query改写

上下文依赖型、对比型、模糊指代型
多意图型、反问型、智能识别
Query联网搜索
识别逻辑、改写逻辑、生成策略
RAG高效召回方法
✅ 知识库处理
场景1：知识库问题生成与检索优化
- 对于已有知识库提前生成问题与答案，有助于快速检索
场景2：对话知识沉淀
场景3：知识库健康度检查
场景4：知识库版本管理与性能比较
✅ GraphRAG使用
GraphRAG 过程
全局搜索
局部搜索
GraphRAG使用

学习产出：

知识库问题生成与检索优化-BM25 技术文档

1. 项目概述

本文档描述的是一个基于 BM25 算法的知识库检索优化工具，该工具通过生成多样化问题结合 BM25 算法来提升知识库检索的效率和准确性，实现了 RAG（检索增强生成）系统中的检索优化环节。

2. 核心功能

该系统主要实现以下核心功能：

知识库问题生成：基于知识库切片自动生成相关问题，丰富检索维度
双重索引构建：同时构建基于原文和生成问题的 BM25 索引
相似文档检索：使用 BM25 算法搜索与查询最相关的知识库切片
检索性能评估：评估不同检索策略的准确性和召回率
多样化问题生成：确保生成的问题覆盖不同角度，避免单一视角

3. 技术架构

3.1 依赖库

系统依赖多个关键库：

os：用于处理操作系统相关功能，如环境变量获取、文件路径操作等
json：用于 JSON 数据的解析和生成，处理配置文件和数据交换
re：提供正则表达式功能，用于文本匹配和处理
numpy：用于数值计算和数组操作，支持相似度计算等数学运算
openai：用于调用 OpenAI API，实现大语言模型的文本生成功能
pandas：用于数据处理和分析，方便对知识库数据进行结构化管理
rank_bm25：提供 BM25 算法实现，用于文档检索和相关性计算
jieba：中文分词库，用于将中文文本切分为词语，提高检索准确性
tiktoken：用于 token 计算，帮助管理 API 调用的 token 数量
random：用于生成随机数，支持多样化问题生成等功能

3.2 环境配置

系统通过环境变量获取必要配置，包括用于 API 访问认证的密钥。

4. 核心组件

4.1 知识库优化器

这是整个系统的核心部分，负责知识库处理和检索优化的各个环节，包括初始化配置、为知识库切片生成相关问题、构建基于 BM25 的知识库索引、搜索相似切片、计算相似度分数、评估不同检索方法的性能以及生成多样化的问题集合。

4.2 工具函数

系统包含多种工具函数，用于预处理响应、生成文本内容、文本标准化处理以及中文分词处理。

5. 工作流程

5.1 知识库构建流程

知识库加载：从文件系统读取知识库数据
切片处理：将知识库内容分割为合适大小的切片
问题生成：为每个切片生成相关问题
索引构建：基于原文和生成问题构建 BM25 索引

5.2 检索流程

查询接收：接收用户查询
相似搜索：使用 BM25 算法搜索相似切片
结果排序：根据相似度分数排序结果
结果返回：返回最相关的知识库切片

5.3 评估流程

测试数据准备：准备测试查询集合
多策略检索：使用不同检索策略执行查询
结果评估：计算准确率、召回率等指标
性能对比：对比不同策略的表现

6. 技术亮点

双重索引策略

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。