[解锁向量存储：从创建到查询的完整指南]

最新推荐文章于 2025-12-02 19:01:55 发布

原创最新推荐文章于 2025-12-02 19:01:55 发布 · 320 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#python #人工智能 #算法

解锁向量存储：从创建到查询的完整指南

引言

随着数据量的激增，如何有效地存储和查询非结构化数据成为一个挑战。向量存储提供了一种通过嵌入向量对非结构化数据进行高效存储和检索的方法。本指南将带您了解向量存储的基本功能，包括如何创建和查询向量存储。

主要内容

1. 数据加载与嵌入

开始之前，我们需要加载数据并初始化嵌入模型。这里我们使用OpenAIEmbeddings。

import os
import getpass

# 设置OpenAI API密钥
os.environ['OPENAI_API_KEY'] = getpass.getpass('OpenAI API Key:')

from langchain_community.document_loaders import TextLoader
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

# 加载文档，将其分割成块，嵌入每个块并加载到向量存储中。
raw_documents = TextLoader('state_of_the_union.txt').load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
documents = text_splitter.split_documents(raw_documents)

2. 向量存储选项

我们有多个向量存储选项，包括Chroma、FAISS和LanceDB等。这里我们展示如何使用Chroma和FAISS。

使用Chroma

pip install langchain-chroma

from langchain_chroma import Chroma

# 使用Chroma创建向量存储
db = Chroma.from_documents(documents, OpenAIEmbeddings())

使用FAISS

pip install faiss-cpu

from langchain_community.vectorstores import FAISS

# 使用FAISS创建向量存储
db = FAISS.from_documents(documents, OpenAIEmbeddings())

3. 相似度搜索

所有向量存储提供similarity_search方法，可以根据嵌入查询找到最相似的文档。

query = "What did the president say about Ketanji Brown Jackson"
docs = db.similarity_search(query)
print(docs[0].page_content)

4. 异步操作

向量存储通常作为独立服务运行，支持异步操作以提高性能。

# 异步相似度搜索示例
docs = await db.asimilarity_search(query)

代码示例

以下是一个完整的代码示例，展示了如何使用向量存储进行相似度搜索。

# 使用API代理服务提高访问稳定性
db = Chroma.from_documents(documents, OpenAIEmbeddings())

# 相似度搜索
query = "What did the president say about Ketanji Brown Jackson"
docs = db.similarity_search(query)
print(docs[0].page_content)