【笔记】 wow-rag 第1课-手搓一个土得掉渣的RAG

原创已于 2025-07-15 18:00:13 修改 · 314 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#笔记

于 2025-07-14 18:22:17 首次发布

正文详见：wow-rag/notebooks/第1课-手搓一个土得掉渣的RAG.ipynb at main · datawhalechina/wow-raghttps://github.com/datawhalechina/wow-rag/blob/main/notebooks/%E7%AC%AC1%E8%AF%BE-%E6%89%8B%E6%90%93%E4%B8%80%E4%B8%AA%E5%9C%9F%E5%BE%97%E6%8E%89%E6%B8%A3%E7%9A%84RAG.ipynb

一、前期准备

1、创建环境

安装到一个你想安装的地方，不要让C盘太满了。

conda create --prefix=/home/conda_env/rag python=3.11.5

2、安装依赖库

首先进入环境:

conda activate /home/conda_env/rag

依次安装依赖库:

pip install faiss-cpu scikit-learn scipy faiss-gpu
pip install openai ZHIpuAI
pip install python-dotenv

3、获取智谱API

智谱AI开放平台https://open.bigmodel.cn/usercenter/proj-mgmt/apikeys

4、导入API

新建一个.env文件存储你的API

5、定义智谱API

from zhipuai import ZhipuAI

client = ZhipuAI(api_key=api_key) # 请填写您自己的APIKey

二、构造知识库

RAG的原理是先在文档中搜索，把搜索到最接近的内容喂给大模型，让大模型根据喂给它的内容进行回答，因此需要存储文档块，便于检索。

1、切分文本文档

将长篇文章切分为小的文本块，方便后续检索。

2、文本块向量化

通过emb_model将文本块向量化并存储到数据库中。

3、数据库检索

数据库检索首先需要将输入文本转化问向量，和文本块转化过程一样。然后通过Faiss库的向量搜索方法寻找数据库中和输入文本最相似的文本块并返回。

三、构造prompt

在数据库中检索到需要的数据后，通过prompt告诉给大模型，让大模型根据该数据回复用户的输入。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ReedFoley

关注关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

[论文笔记]Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Com

日积月累，天道酬勤

05-16

1815

⭐ 作者提出了一个自适应QA框架，通过一个分类器计算查询复杂度，然后动态选择最适合的策略，提供了一种平衡的策略，能够在各种查询复杂度下无缝地在迭代和单步检索增强的LLMs之间进行适应，以及无检索方法。

【WOW - Rag 三月组队学习】第1课-手搓一个土得掉渣的RAG

YuMikeFan的博客

03-11

108

参与评论您还未登录，请先登录后发表或查看评论

【笔记】wow-rag 第5课-流式部署

ReedFoley的博客

07-23

424

wow-rag/notebooks/第5课-流式部署.ipynb at main · datawhalechina/wow-rag。流式输出是一种逐步传输数据的技术，允许服务器将数据分批发送给客户端，而不是一次性加载全部内容。流式输出是一种逐步传输数据的技术，允许服务器将数据分批发送给客户端，而不是一次性加载全部内容。response_gen是一个生成器对象，它会逐个产出查询结果的文本块。similarity_top_k=3：返回语义相似度前三的结果。streaming=True：启动流式输出。

【笔记】wow-rag 第2课-正式上路搞定模型

ReedFoley的博客

07-17

304

【笔记】wow-rag 第2课-正式上路搞定模型

【笔记】wow-rag 第3课-初步体验问答引擎

ReedFoley的博客

07-19

380

正文详见：wow-rag/notebooks/第3课-初步体验问答引擎.ipynb at main · datawhalechina/wow-rag。

【笔记】wow-rag 第4课-最脏最累的文档管理

ReedFoley的博客

07-21

doc_single必须是一个 TextNode 对象。

RAG入门 Task01 手搓一个土的掉渣的RAG

weixin_72250436的博客

07-16

918

datawhale AI 共学。

wow-rag学习｜打造个人RAG，零基础也能快速搭建检索生成系统

简说Python的博客

12-03

1212

本文为Datawhale 开源项目wow-rag的学习笔记与分享，仅供参考，如有错误描述，请评论指正，感谢。开源项目地址：github.com/datawhalechina/wow-rag欢迎大家点击关注我，学习更多AI相关知识。获取免费大模型APIKEY这里我们选择使用智谱的，操作很简单，访问下面链接，注册登录。https://open.bigmodel.cn/usercenter/proj...

wow-rag学习｜手搓RAG

m0_61222152的博客

03-11

195

从0实现一个简易的RAG

wow-rag 第五章-流式部署 Task05

weixin_72250436的博客

07-24

1043

param=你好");如果需携带，选择 Fetch 方案，自行设置headers:{}

【大模型RAG】（附代码）一站式打造个人知识库：Milvus 2.5 × BGE × BM25 × GPT - RAG 从 0 到 1 实战笔记

06-10

不仅如此，随着技术的不断进步，知识库的构建方法也在不断演进，文档中介绍的利用RAG模型进行知识库构建的方法，正体现了当前自然语言处理领域的一个前沿发展方向。本文档是个人知识库构建领域的一份重要资料，它...

人工智能基于Self-RAG的检索增强生成模型实战：代码级实现与多场景应用性能优化

09-27

内容概要：本文深入探讨了从传统RAG到Self-RAG的演进路径，重点剖析了传统RAG在检索效率、生成准确性与检索必要性判断方面的三大瓶颈，并提出Self-RAG通过引入“检索决策”“生成”“自我反思”三合一机制加以解决。...

精选资源

spring-ai-rag-1.0.0-M7.jar中文-英文对照文档.zip

04-18

spring-ai-rag-1.0.0-M7.jar中文-英文对照文档.zip,java,spring-ai-rag-1.0.0-M7.jar,org.springframework.ai,spring-ai-rag,1.0.0-M7,org.springframework.ai.rag,jar包,Maven,第三方jar包,组件,开源组件,第三方...

精选资源

RAG最佳实践-rag

03-05

在软件开发和项目管理领域中，RAG是一个常用来表示状态的颜色编码系统，分别代表红色(Red)、琥珀色(Amber)和绿色(Green)，用于指示项目的健康状况和进度。红色通常表示存在问题，需要立即关注；琥珀色表示项目存在...

运放学习笔记

Z97371539的博客

12-13

562

单电源运放是指仅使用单一电源电压（例如，+5V）和地（0V）作为电源供给的运放。也就是说，它只需要一个正电压和地作为参考电压，而不需要负电压。

pcie笔记

bortonyu的博客

12-11

776

模式全称描述共用参考时钟Root Complex（RC）和 Endpoint（EP）使用同一颗外部 RefclkSRNSRC 和 EP 使用独立时钟源，但不允许展频（SSC）SRISRC 和 EP 使用独立时钟源，允许各自带有 SSC 抖动txt复制编辑FS 表示信号的总摆幅，用于判断是否满足发送器输出的最大电压范围（如 800mV full swing）。Full Swing 模式下：FS ∈ [24, 63]Reduced Swing 模式下：FS ∈ [12, 63]

先立后破：Linux 下“新建管理员 → 验证 → 禁用 root 远程 SSH”的零翻车笔记

weixin_45626288的博客

12-12

529

本文提供了一套零风险的Linux服务器安全加固流程，重点解决等保2.0要求的"禁用root远程SSH"需求。通过"先立后破"原则，先创建并验证新管理员账号的sudo权限，再禁用root远程登录，全程保持root会话不断开作为应急通道。关键步骤包括：创建新管理员账号、配置sudo权限、严格测试新账号功能、安全修改sshd配置、保留本地root登录权限等。文章特别强调验证环节的重要性，并提供了快速回滚方案，确保运维人员不会因配置失误导致服务器失联。这套方法适用于Kylin

AD学习笔记-36 gerber文件输出

2401_83451707的博客

12-14

292

今天，我们学习如何导出gerber文件，这是我们给板厂的最终文件。

Android学Dart学习笔记第十四节库和导库

最新发布

weixin_44656996的博客

12-15

694

其他语言中的访问修饰符关键字提供了更细粒度的控制，而Dart使用下划线和基于库的隐私提供了直接的配置机制，有助于高效实现动态访问，并改进了树抖动（死代码消除）。库不仅提供api，还是隐私的单位：以下划线（_）开头的标识符只在库内部可见。当你导入的多个库中，使用了相同的类名时，可以为库起个别名，使用别名.类名明确指定所引用的类。使用import来指定如何在另一个库的作用域中使用来自一个库的命名空间。带有通配符_的导入前缀是不绑定的，但可以访问该库中的非私有扩展。

手搓一个土的掉渣的rag

09-01

<think> 我们正在构建一个简易的RAG系统，主要步骤包括：文档加载、文本分割、向量化（嵌入）、向量存储与检索、以及使用大语言模型生成答案。参考引用内容： [^1]介绍了RAG技术的定义和工作原理，我们可以借鉴其核心思想：通过检索外部知识来增强生成模型的能力。 [^2]提供了使用Python实现RAG系统的实战案例，我们可以参考其实现思路。 [^3]指出了RAG实现中的挑战，但我们构建简易系统，暂不考虑复杂情况。 [^4]详细介绍了MultiQueryRetriever等高级技术，但我们的简易系统可以先实现基本查询。 [^5]给出了欧氏距离公式，我们可以用来计算向量相似度（但实际中更常用余弦相似度）。步骤： 1. 文档加载：将文档（如文本文件、PDF等）加载进来。 2. 文本分割：将大文档分割成小块（chunks），因为大语言模型一次处理的文本长度有限。 3. 向量化：使用预训练的嵌入模型（如sentence-transformers）将文本块转换为向量。 4. 构建向量存储：存储文本块及其对应的向量。 5. 检索：根据用户查询，将查询文本向量化，然后在向量存储中检索最相似的文本块（通常使用余弦相似度或欧氏距离）。 6. 生成：将检索到的相关文本块（作为上下文）与用户查询一起输入给大语言模型（如ChatGPT、LLaMA等），生成答案。简易实现（使用Python）：我们将使用以下库： - `langchain`：提供文档加载、文本分割等工具（但为了手动实现，我们这里尽量自己写，或者用更基础的库） - `sentence-transformers`：用于文本向量化 - `annoy` 或 `faiss`：用于高效向量检索（为了简易，也可以直接用余弦相似度计算）但为了真正手动，我们可以简化： - 向量存储使用列表存储向量，然后通过计算每个向量的相似度来检索（效率低，但数据量小可以接受） - 不使用langchain，自己写分割和加载。具体步骤： 1. 安装必要库： ```bash pip install sentence-transformers # 如果没有其他依赖，我们先不用faiss，自己实现线性扫描 ``` 2. 文档加载与分割： - 假设我们有一个文本文件，读取并分割成固定大小的块（例如按句子或固定字符数）。 3. 向量化： - 使用sentence-transformers模型，比如`all-MiniLM-L6-v2`（轻量级，效果不错）。 4. 存储： - 将每个文本块和对应的向量存储起来（比如在内存中用一个列表存储文本块，一个numpy数组存储向量）。 5. 检索： - 用户输入查询，将查询向量化。 - 计算查询向量与每个文本块向量的相似度（余弦相似度）。 - 取相似度最高的前k个文本块作为上下文。 6. 生成答案： - 将查询和检索到的上下文组合成一个提示（prompt），输入给大语言模型（如使用OpenAI API，或者本地运行的LLM）。注意：这里我们使用OpenAI API作为生成模型（需要API key），当然也可以使用其他模型。代码结构示例：步骤1：加载文档并分割 ```python def load_and_split_document(file_path, chunk_size=500, chunk_overlap=50): # 读取文件 with open(file_path, 'r', encoding='utf-8') as f: text = f.read() # 简易分割：按字符分割 chunks = [] start = 0 while start < len(text): end = min(start + chunk_size, len(text)) chunks.append(text[start:end]) start = end - chunk_overlap # 重叠部分 if start < 0: start = 0 return chunks ``` 步骤2：向量化 ```python from sentence_transformers import SentenceTransformer model = SentenceTransformer('all-MiniLM-L6-v2') def get_embeddings(texts): return model.encode(texts) ``` 步骤3：存储向量和文本 ```python # 假设我们有一个文档列表 document_chunks = load_and_split_document('example.txt') embeddings = get_embeddings(document_chunks) # 存储为列表和数组 ``` 步骤4：检索函数 ```python import numpy as np def cosine_similarity(a, b): return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b)) def retrieve(query, embeddings, chunks, top_k=3): query_embedding = get_embeddings([query])[0] similarities = [] for emb in embeddings: sim = cosine_similarity(query_embedding, emb) similarities.append(sim) # 获取top_k索引 sorted_indices = np.argsort(similarities)[::-1][:top_k] # 从大到小排序取前k个 return [chunks[i] for i in sorted_indices] ``` 步骤5：生成答案 ```python import openai openai.api_key = 'your-api-key' def generate_answer(query, context_chunks): context = "\n\n".join(context_chunks) prompt = f"""根据以下上下文信息回答问题。如果你不知道答案，就说不知道。上下文： {context} 问题：{query} 答案：""" response = openai.Completion.create( engine="text-davinci-003", # 或者使用其他模型 prompt=prompt, max_tokens=150, temperature=0.5 ) return response.choices[0].text.strip() ``` 步骤6：组合 ```python def simple_rag_system(query): # 检索 context_chunks = retrieve(query, embeddings, document_chunks) # 生成 answer = generate_answer(query, context_chunks) return answer ``` 注意：上述代码是一个高度简化的版本，实际中需要考虑效率（使用向量索引）、上下文长度限制（确保总长度不超过模型限制）等。改进点（可选）： - 使用更高效向量索引（如FAISS）加速检索。 - 分割文本时使用更智能的方法（如按句子分割，避免截断单词）。以上就是一个简易手动实现的RAG系统。根据引用[^2]的思想，我们通过检索相关文档片段来增强生成模型的答案准确性。引用说明： [^1] 介绍了RAG的基本原理，我们遵循了其通过检索外部知识增强生成的思路。 [^2] 提供了使用Python构建RAG的实战参考，我们的实现步骤与其类似。 [^4] 提到的高级检索策略（如MultiQueryRetriever）在我们的简易系统中未使用，但可以后续扩展。 §§相关问题§§ 1. RAG系统中如何选择合适的分块大小？ 2. 除了余弦相似度，还有哪些方法可以计算文本向量的相似度？ 3. 如何评估一个RAG系统的性能？ </think> ### 手动实现简易RAG系统的方法我将分步说明如何手动实现一个简易的检索增强生成(RAG)系统，核心流程参考引用[^2][^4]的实现思路： #### 1. **系统架构设计** ```mermaid graph LR A[文档加载] --> B[文本切分] B --> C[向量嵌入] C --> D[向量存储] E[用户查询] --> F[查询嵌入] F --> G[向量检索] G --> H[上下文组装] H --> I[LLM生成] ``` #### 2. **核心实现步骤** **① 文档加载与分割**（参考[^4]） ```python def split_document(text, chunk_size=500): """ 按固定大小分割文本 :param text: 输入文本 :param chunk_size: 块大小 :return: 文本块列表 """ return [text[i:i+chunk_size] for i in range(0, len(text), chunk_size)] ``` **② 文本向量化**（参考[^5]） ```python from sentence_transformers import SentenceTransformer # 加载轻量级嵌入模型 embedding_model = SentenceTransformer('all-MiniLM-L6-v2') def get_embeddings(texts): """ 生成文本向量 :param texts: 文本列表 :return: 向量列表 """ return embedding_model.encode(texts).tolist() ``` **③ 向量存储与检索** ```python import numpy as np from sklearn.metrics.pairwise import cosine_similarity class VectorStore: def __init__(self): self.chunks = [] self.embeddings = [] def add_documents(self, chunks): """存储文档向量""" self.chunks.extend(chunks) self.embeddings.extend(get_embeddings(chunks)) def retrieve(self, query, top_k=3): """检索最相关文本块""" query_vec = get_embeddings([query])[0] similarities = cosine_similarity([query_vec], self.embeddings)[0] top_indices = np.argsort(similarities)[-top_k:][::-1] return [self.chunks[i] for i in top_indices] ``` **④ 生成答案**（参考[^1][^2]） ```python def generate_answer(query, context_chunks): """ LLM生成最终答案 :param query: 用户问题 :param context_chunks: 检索到的文本块 """ context = "\n\n".join(context_chunks) prompt = f"""根据以下上下文回答问题： {context} 问题：{query} 答案：""" # 实际使用需替换为真实API调用 return call_llm_api(prompt) # 示例调用 vector_store = VectorStore() vector_store.add_documents(split_document(load_document("data.txt"))) contexts = vector_store.retrieve("什么是RAG技术?") answer = generate_answer("什么是RAG技术?", contexts) ``` #### 3. **关键技术点** 1. **向量相似度计算** 使用余弦相似度而非欧氏距离（参考[^5]）： $ \text{cosine similarity} = \frac{A \cdot B}{\|A\| \|B\|} $ 2. **上下文组装** 将top-k相关片段拼接为提示词上下文（参考[^4]） 3. **优化方向**（参考[^3]） - 添加元数据过滤 - 实现[^4]提到的MultiQuery检索 - 加入重新排序(rerank)机制 #### 4. **完整工作流程** 1. 准备知识库文档（TXT/PDF等） 2. 分割文档为文本块（通常512-1024字符） 3. 生成文本块向量并存储 4. 接收用户查询并向量化 5. 检索最相关的文本块 6. 将查询+检索结果输入LLM生成答案 > 提示：实际部署时可使用FAISS替代内存存储提升检索效率[^4]，添加缓存机制减少重复计算[^3]