使用Redis作为向量存储实现自查询检索器

最新推荐文章于 2025-07-11 22:20:28 发布

原创最新推荐文章于 2025-07-11 22:20:28 发布 · 634 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#redis #数据库 #缓存 #python

在本教程中，我们将演示如何使用Redis作为向量存储，并利用LangChain库提供的SelfQueryRetriever实现智能数据检索。Redis不仅是一个高效的键值存储，它还可以处理向量数据，使其成为一个强大的AI应用后端。

技术背景介绍

Redis是一个强大的开源键值存储，因其快速且可靠的性能被广泛应用。随着向量数据处理的需求增加，Redis逐渐被用于存储和检索向量数据，比如在机器学习和AI应用中用于相似性搜索。通过这种方法，我们可以在存储中快速查找与特定查询相似的数据。

核心原理解析

本文将使用LangChain库中提供的SelfQueryRetriever，它是一个利用LLM（大型语言模型）进行自查询检索的模块。其基本原理是将文档向量化存储在Redis中，然后通过语言模型对用户查询进行分析，并从存储中提取相关文档。

代码实现演示

环境准备

首先，我们需要安装相关依赖库：

%pip install --upgrade --quiet redis redisvl langchain-openai tiktoken lark

配置OpenAI API Key

我们将使用OpenAI的嵌入生成器，因此需要设置API Key：

import getpass
import os

os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")

创建Redis向量存储

接下来，我们初始化Redis存储，并将一些电影的简介作为数据存入其中：

from langchain_community.vectorstores import Redis
from langchain_core.documents import Document
from langchain_openai import OpenAIEmbeddings

# 初始化OpenAI Embeddings
embeddings = OpenAIEmbeddings()

# 定义文档数据
docs = [
    # ... 文档数据如示例所示 ...
]

# 定义索引模式
index_schema = {
    "tag": [{"name": "genre"}],
    "text": [{"name": "director"}],
    "numeric": [{"name": "year"}, {"name": "rating"}],
}

# 创建Redis向量存储
vectorstore = Redis.from_documents(
    docs,
    embeddings,
    redis_url="redis://localhost:6379",
    index_name="movie_reviews",
    index_schema=index_schema,
)

配置自查询检索器

我们需要定义文档的元数据字段以便检索器正确执行：

from langchain.chains.query_constructor.base import AttributeInfo
from langchain.retrievers.self_query.base import SelfQueryRetriever
from langchain_openai import OpenAI

metadata_field_info = [
    # ... 如示例所示的AttributeInfo定义 ...
]

document_content_description = "Brief summary of a movie"

# 初始化检索器
llm = OpenAI(temperature=0)
retriever = SelfQueryRetriever.from_llm(
    llm, vectorstore, document_content_description, metadata_field_info, verbose=True
)

测试检索功能

现在我们可以针对不同查询条件测试我们的自查询检索器：

# 仅指定相关查询
results = retriever.invoke("What are some movies about dinosaurs")
print(results)

# 指定过滤条件
results = retriever.invoke("I want to watch a movie rated higher than 8.4")
print(results)

# 指定复杂过滤和查询
results = retriever.invoke("What's a highly rated (above 8.5) science fiction film?")
print(results)

应用场景分析

这种使用Redis存储向量数据并通过LLM进行智能检索的方式非常适合用于内容推荐系统、自然语言文本匹配、智能搜索引擎等场景。它不仅提升了数据检索的效率，还提高了语义理解能力。

实践建议

在实际应用中，确保Redis服务的稳定性并正确优化索引方式可以显著提升检索性能。同时，在构造自定义查询时，合理的字段描述和索引模式能够极大提高精确度。

如果遇到问题欢迎在评论区交流。

—END—