RAG向量数据库构建1

最新推荐文章于 2025-05-19 19:26:23 发布

HUOXINGRENhhh

最新推荐文章于 2025-05-19 19:26:23 发布

阅读量1.1k

点赞数 17

文章标签： python 人工智能语言模型

本文链接：https://blog.youkuaiyun.com/HUOXINGRENhhh/article/details/142650005

版权

一、什么是向量数据库

首先，我们先来看定义。

RAG中的向量数据库用于存储和检索相关信息，以支持生成模型。在查询时，它可以快速找到与输入相关的上下文，从而增强生成的内容，提供更准确和丰富的回答。这个机制让模型在生成过程中能够“深入”到外部知识中，提高其最终输出的质量和相关性。

怎么样生动地来解释它呢，我们可以想象一下，RAG就像一个聪明的机器人，它会回答你问题。但是，有时候它不知道答案。为了帮助它，RAG有一个大图书馆（就是向量数据库），里面有很多书（就是文本等原始内容或知识源，包含多种信息）。但为了找到答案，它会把书里的信息变成小卡片（就是向量）。每张卡片上写着重要的内容。

当你问问题时，它能快速找到相关的卡片，然后用这些信息（卡片信息则是具体的知识或数据，用于回答问题）来帮助回答你。

这样是不是更容易理解了呢？好的，在了解了向量数据库之后，我们来讲讲构建向量数据库的具体步骤。

二、构建向量数据库的具体步骤

从这张图里，我们可以看到向量数据库构建的一个过程。

最简略的步骤如下：

1. 数据收集：获取要存储的信息。
2. 数据预处理：清理和准备数据。
3. 向量化：使用模型将文本转化为向量。
4. 存储向量：将向量存入数据库。
5. 索引构建：为向量建立索引以加速检索。
6. 查询与检索：输入查询，查找相似向量并返回结果。

三、实战（使用Web社团的周报内容来构建向量数据库）

构建向量数据库的一个实际例子是使用Web社团的周报内容。

以下是构建向量数据库的步骤：

1.文档加载：首先，你需要将Web社团的周报加载到系统中。这些周报可能以PDF、Word文档或文本文件的形式存在。

2. 文本分割：将加载的文档内容分割成小块，例如，每个段落或句子可以作为一个单独的文本块。

3. 嵌入向量化：使用嵌入模型（如BERT、GPT或其他语言模型）将每个文本块转换为向量表示。这些向量将捕捉文本块的语义信息。

4. 存储向量：将生成的向量存储到向量数据库中，如Milvus、FAISS或百度的向量数据库。

5. 构建索引：在向量数据库中构建索引，以优化搜索效率。索引可以根据向量的维度和数据分布选择合适的算法，如HNSW、IVF等。

6. 检索：当用户提出问题时，系统会使用问题作为查询向量，在向量数据库中检索最相似的向量，即相关信息。

以下是一个具体的Python代码示例，演示如何使用Milvus向量数据库和LangChain库来构建和查询Web社团周报的向量数据库：

from langchain_community.document_loaders import PDFPlumberLoader

from langchain.text_splitter import RecursiveCharacterTextSplitter

from langchain_openai import AzureOpenAIEmbeddings

from langchain_community.vectorstores import Milvus



# 加载文档

loader = PDFPlumberLoader("web_club_weekly.pdf")

documents = loader.load()



# 文本分割

text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)

chunks = text_splitter.split_documents(documents)



# 嵌入向量化

embeddings = AzureOpenAIEmbeddings()

vectors = [embeddings.encode(chunk.page_content) for chunk in chunks]



# 存储向量到Milvus

vector_db = Milvus.from_documents(

    documents=chunks,

    embedding=embeddings,

    collection_name="web_club_weekly",

    drop_old=True,

    connection_args={"host": "127.0.0.1", "port": "19530"}

)



# 构建索引

vector_db.create_index()



# 检索示例

query = "最新的Web社团周报内容是什么？"

query_vector = embeddings.encode(query)

results = vector_db.search(query_vector, k=2) # 检索最相似的2个向量



# 打印检索结果

for result in results:

    print(f"相似度: {result['distance']:.2f}, 文本内容: {result['document'].page_content}")

在这个例子中，我们首先加载了一个名为"web_club_weekly.pdf"的PDF文件，然后将其内容分割成小块。接着，我们使用Azure OpenAI Embeddings模型将文本块转换为向量，并存储到Milvus数据库中。最后，我们构建了索引并执行了一个检索查询。

好啦，本篇到这里就结束啦，感谢观看~