在本文中,我们将探讨如何使用LlamaIndex构建多租户知识增强生成(RAG)系统。多租户系统允许不同用户在同一个系统中使用各自的数据和查询,从而提高系统的资源利用率和数据隔离性。
准备工作
首先,确保你已经安装了llama-index
和pypdf
。
!pip install llama-index pypdf
设置OpenAI密钥
为了使用LlamaIndex和OpenAI API,我们需要设置OpenAI密钥。
import os
os.environ["OPENAI_API_KEY"] = "YOUR OPENAI API KEY" # 请替换为你的OpenAI API密钥
下载数据
我们将使用两篇论文作为示例数据,这两篇论文分别是《An LLM Compiler for Parallel Function Calling and Dense X Retrieval》和《What Retrieval Granularity Should We Use?》。
!wget --user-agent "Mozilla" "https://arxiv.org/pdf/2312.04511.pdf" -O "llm_compiler.pdf"
!wget --user-agent "Mozilla" "https://arxiv.org/pdf/2312.06648.pdf" -O "dense_x_retrieval.pdf"
加载数据
使用SimpleDirectoryReader
读取PDF文件。
from llama_index.core import SimpleDirectoryReader
reader = SimpleDirectoryReader(input_files=["dense_x_retrieval.pdf"])
documents_jerry = reader.load_data(