大模型从入门到应用——LangChain：检索(Index)-向量存储器

本文链接：https://blog.youkuaiyun.com/mozf881/article/details/137543603

本文介绍了LangChain中的向量存储器，它利用向量表示技术存储和检索文本，支持快速相似性查找，应用于文本分类、情感分析等任务。文章还提供了内存和磁盘向量存储器的选择以及嵌入文本比较的示例代码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

向量存储器（Vectorstores）是 LangChain 中的一个重要模块，它用于存储和检索文本的向量表示。向量表示是一种将文本转换为数字向量的技术，它可以捕捉文本的语义和语法信息。通过使用向量存储器，LangChain 可以快速查找和比较文本的相似性，从而实现各种自然语言处理任务，如文本分类、情感分析、命名实体识别等。

一、LangChain 的向量存储器的介绍

向量存储器是 LangChain 中的一个重要模块，它用于存储和检索文本的向量表示。向量表示是一种将文本转换为数字向量的技术，它可以捕捉文本的语义和语法信息。通过使用向量存储器，LangChain 可以快速查找和比较文本的相似性，从而实现各种自然语言处理任务，如文本分类、情感分析、命名实体识别等。

在 LangChain 中，向量存储器使用了一种称为“向量索引”的技术。向量索引是一种基于向量的文本索引技术，它将文本转换为向量，并将这些向量存储在索引中。当需要查找文本时，向量索引会查找与输入文本最相似的向量，并返回相应的文本。

LangChain 提供了多种向量存储器实现，包括内存向量存储器和基于磁盘的向量存储器。内存向量存储器适用于较小的数据集，它将所有向量存储在内存中，因此查询速度非常快。基于磁盘的向量存储器适用于较大的数据集，它将向量存储在磁盘上，并使用索引来加速查询。

二、LangChain 的向量存储器的范例代码

下面是一个使用 LangChain 的向量存储器的范例代码。在这个例子中，我们将使用内存向量存储器来存储和检索文本的向量表示。

!pip install langchain-openai

from langchain_openai import OpenAIEmbeddings

embeddings_model = OpenAIEmbeddings(api_key="...")

或者不使用任何参数

from langchain_openai import OpenAIEmbeddings

embeddings_model = OpenAIEmbeddings(api_key="...")

使用

embeddings = embeddings_model.embed_documents(
    [
        "Hi there!",
        "Oh, hello!",
        "What's your name?",
        "My friends call me World",
        "Hello World!"
    ]
)
len(embeddings), len(embeddings[0])

三、嵌入文本比较

LangChain 的向量存储器还可以用于嵌入单个查询。嵌入单个查询是指将一个查询文本转换为向量，并将其存储在向量存储器中。然后，可以使用向量存储器来查找与该查询最相似的向量。

下面是一个使用 LangChain 的向量存储器进行嵌入单个查询的范例代码。

from langchain向量存储器 import VectorStore

def embed_query(query, vector_store):
    # 将查询文本转换为向量
    query_vector = vector_store.embed_query(query)

    return query_vector

# 存储向量
vectors = [
    '这是一个示例向量',
    '这是另一个示例向量',
]

vector_store = store_vectors(vectors)

# 嵌入查询
query = '这是一个示例查询'
query_vector = embed_query(query, vector_store)

print(query_vector)