使用 Weaviate 和 LangChain 实现向量存储和检索增强生成

最新推荐文章于 2025-04-26 21:03:53 发布

fgayif

最新推荐文章于 2025-04-26 21:03:53 发布

阅读量408

点赞数 4

文章标签： langchain python

本文链接：https://blog.youkuaiyun.com/fgayif/article/details/146465770

版权

技术背景介绍

Weaviate 是一个开源的向量数据库，可以将数据对象和来自你喜爱的机器学习模型的向量嵌入存储起来，并无缝扩展到数十亿个数据对象。结合 LangChain，我们可以轻松地存储和检索信息，增强大型语言模型（LLM）的功能，特别是在构建问答系统和检索增强生成（RAG）应用时。

核心原理解析

通过将文档分割成合适大小的块并生成其向量嵌入，我们可以将这些文档存储在 Weaviate 中。随后，借助 Weaviate 的混合搜索功能，我们能够进行向量相似度检索，从而根据用户查询返回最相关的文档。LangChain 提供了一个方便的接口与 Weaviate 结合，以实现高效的信息检索和存储。

代码实现演示

安装和环境设置

首先确保安装所需的包：

# 安装 Weaviate 和 LangChain 的相关包
pip install -U langchain-weaviate openai tiktoken langchain

接着在环境中设置 OpenAI API 密钥：

# 设置 OpenAI API 密钥
export OPENAI_API_KEY='your-openai-api-key'

数据导入和检索实现

数据准备

我们先加载并分割要处理的文本文件。

from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import CharacterTextSplitter
from langchain_openai import OpenAIEmbeddings

# 加载文本文件
loader = TextLoader("state_of_the_union.txt")
documents = loader.load()

# 分割文本为块
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

# 使用 OpenAI 生成嵌入
embeddings = OpenAIEmbeddings()

连接到 Weaviate 并导入数据

假定本地运行了一个 Weaviate 实例：

import weaviate
from langchain_weaviate.vectorstores import WeaviateVectorStore

# 连接到 Weaviate 实例
weaviate_client = weaviate.Client(url='http://localhost:8080')

# 将文档和嵌入导入 Weaviate
db = WeaviateVectorStore.from_documents(docs, embeddings, client=weaviate_client)

执行相似度搜索

query = "What did the president say about Ketanji Brown Jackson"
docs = db.similarity_search(query)

# 输出结果
for i, doc in enumerate(docs):
    print(f"\nDocument {i+1}:")
    print(doc.page_content[:100] + "...")