实验室 #3：实施 RAG 以构建“与多个 PDF 聊天”应用程序

本文链接：https://blog.youkuaiyun.com/python1234_/article/details/141421486

难度等级：中级 🎖️🎖️

本文将要涵盖的主要内容：

为什么 RAG 重要？
RAG 实际是如何工作的
应用 RAG 构建一个“与多个 PDF 聊天”的应用

1. 为什么 RAG 重要？

在使用像 GPT、Claude、BERT 等 LLM 模型时，您可能遇到以下问题：

模型虚构信息并生成不真实的答案 (幻觉效应)
您希望模型 在您自己的数据源上运行，从文本数据（pdf、doc 等）到各种类型的媒体数据（视频、音频、照片等）
有时，您处理非常长的内容，导致 昂贵的处理成本 或您的账户简单地被封锁 1-2 小时（影响您的生产力）

如果您对上述问题感同身受，是时候了解 RAG 了。

什么是 RAG？

RAG (检索增强生成) 是一种通过从外部资源获取事实来提高生成 AI 模型准确性和可靠性的技术。RAG 是一种重要的技术，因为：

几乎每个 LLM 都可以使用 RAG 连接几乎任何外部资源。
RAG 使您的应用程序对我们的用户更可靠（“信任”）。为什么？因为 RAG 为模型提供了可以引用的来源，就像研究论文中的脚注一样，因此用户可以检查任何声明。这建立了信任。
减少模型错误猜测的可能性，这种现象有时称为幻觉。
最后，RAG 使得这种方法 比使用额外数据集重新训练模型更快且成本更低。并且它允许用户动态更换新的来源。

2. RAG 实际工作原理

从高层次来看，整个 RAG 过程分为两个阶段：

阶段 1（预处理）： 将外部源加载到我们的系统中
阶段 2（推理）： 在 LLM 的支持下为用户的查询生成答案

让我们深入了解这两个阶段

阶段 1：预处理阶段

1. 从外部源加载数据到文本： 这个过程在 langchain 框架的支持下很容易完成。

在上面的例子中，我使用 PyPDFLoader 从 PDF 文件加载数据
在实践中，我还使用其他文档加载器从 YouTube、CSV、Confluence 等加载数据
你可以访问 langchain 官方网站获取所有文档加载器的列表

2. 将文本转换为块： 将文本拆分为小块，以优化信息的处理、存储和检索，同时提高 AI 系统的质量和准确性。

3. 将块嵌入向量数据库： 向量数据库被认为是 RAG 实现堆栈中最常见的方式（在本文中，我也选择了一个可以轻松在本地磁盘上运行的向量数据库，即 Chroma）。选择最佳向量数据库的内容在本文中未涉及。如果你想深入了解这个主题，请查看 SuperLinked 的列表*。*

阶段 2：推理运行时阶段

1. 输入查询（问题）： 输入查询的用户需要得到回答或处理。

2. 嵌入查询： 使用嵌入模型将查询转换为嵌入。

3. 信息检索： 使用查询的向量表示从包含嵌入文本的大型数据库中查找相关文本。

4. 文本生成器： 提取的文本将与原始查询一起用于生成新的答案或文本。生成器（通常是大型语言模型）将结合这些文本段落中的信息生成反馈。

5. 输出（答案）： 创建的文本将作为完整答案返回给用户。

3. 应用 RAG 构建“与多个 PDF 聊天”应用

一旦你了解了 RAG 的工作原理，就该和我一起构建一个“与多个 PDF 聊天”的应用了。并看看我如何将 RAG 应用到实际应用中。

设置

首先，我们需要安装所有包

在这里插入图片描述

将 OPENAI_API_KEY 替换为您自己的密钥，在示例中，我使用了 streamlit secret：

在这里插入图片描述

在 ChromaDB 中创建名为 “chat-with-pdf” 的集合

在这里插入图片描述

为了与集合一起工作，我们将使用函数 get_collection
在这里插入图片描述

阶段 1：预处理阶段

当用户上传一些新文件时：

加载所有新上传的文件
将其内容拆分为块
将块嵌入到 ChromaDB 中，并保存到 ChromaDB

否则，当用户从列表中删除文件时，我们需要删除所有相关的块

在这里插入图片描述

将两个方法合并为一个函数
在这里插入图片描述

第2阶段：推理运行时阶段

创建一个与ChromaDB协作的检索器。检索器是一个接口，能够根据非结构化查询返回文档。
创建一个链条将所有内容连接在一起

在这里插入图片描述

每当你想使用 retriever_chain 时，可以调用 invoke. 例如：

在这里插入图片描述

最终结果：

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述