使用 MongoDB Atlas 和 OpenAI 实现自查询向量检索

在本文中,我们将探讨如何使用 MongoDB Atlas 构建一个向量存储并结合 OpenAI 实现自查询检索。通过创建一个 MongoDB Atlas VectorStore,我们可以存储和检索文档的向量表示。这一强大功能可用于多种场景,如电影摘要检索。以下是具体的实现步骤。

技术背景介绍

MongoDB Atlas 是一种高性能的文档数据库,支持向量存储,可以借助其强大的搜索能力处理海量数据。在结合 OpenAI 的嵌入服务后,我们可以实现智能的文档检索。Langchain 提供了灵活的 API,我们将利用其构建一个自查询检索器(SelfQueryRetriever)。

核心原理解析

通过构建向量存储,文档被转换为可以进行相似度比较的嵌入向量。然后,我们可以构建自查询检索系统,根据用户输入的自然语言查询进行相关文档检索,支持复杂的过滤条件和高效查询。

代码实现演示

以下代码展示了如何使用 MongoDB Atlas 创建向量存储,并结合 OpenAI 进行自查询检索:

# 确保安装了必要的库:lark 和 pymongo
%pip install --upgrade --quiet lark pymongo

import openai
import os
from langchain_community.vectorstores import MongoDBAtlasVectorSearch
from langchain_core.documents import Document
from langchain_openai import OpenAIEmbeddings
from pymongo import MongoClient
from langchain.chains.query_constructor.base import AttributeInfo
from langchain.retrievers.self_query.base import SelfQueryRetriever
from langchain_openai import OpenAI

# 配置 OpenAI API 密钥
os.environ["OPENAI_API_KEY"] = "your-openai-api-key"

# 配置 MongoDB Atlas 连接
CONNECTION_STRING = "your-mongodb-atlas-connection-string"
DB_NAME = "your-database"
COLLECTION_NAME = "your-collection"
INDEX_NAME = "your-index"

# 创建 MongoDB 客户端
client = MongoClient(CONNECTION_STRING)
collection = client[DB_NAME][COLLECTION_NAME]

# 使用 OpenAI 创建嵌入
embeddings = OpenAIEmbeddings()

# 示例文档
docs = [
    Document(page_content="A bunch of scientists bring back dinosaurs and mayhem breaks loose", metadata={"year": 1993, "rating": 7.7, "genre": "action"}),
    Document(page_content="Leo DiCaprio gets lost in a dream within a dream within a dream within a ...", metadata={"year": 2010, "genre": "thriller", "rating": 8.2}),
    # 更多示例文档...
]

# 创建 VectorStore
vectorstore = MongoDBAtlasVectorSearch.from_documents(docs, embeddings, collection=collection, index_name=INDEX_NAME)

# 定义元数据字段信息
metadata_field_info = [
    AttributeInfo(name="genre", description="The genre of the movie", type="string"),
    AttributeInfo(name="year", description="The year the movie was released", type="integer"),
    AttributeInfo(name="rating", description="A 1-10 rating for the movie", type="float"),
]

# 文档内容描述
document_content_description = "Brief summary of a movie"

# 创建自查询检索器
llm = OpenAI(temperature=0)
retriever = SelfQueryRetriever.from_llm(llm, vectorstore, document_content_description, metadata_field_info, verbose=True)

# 测试检索功能
retriever.invoke("What are some movies about dinosaurs")
retriever.invoke("What are some highly rated movies (above 9)?")
retriever.invoke("I want to watch a movie about toys rated higher than 9")
retriever.invoke("What's a highly rated (above or equal 9) thriller film?")
retriever.invoke("What's a movie after 1990 but before 2005 that's all about dinosaurs, and preferably has a lot of action")

# 使用限制查询结果数量的功能
retriever = SelfQueryRetriever.from_llm(llm, vectorstore, document_content_description, metadata_field_info, verbose=True, enable_limit=True)
retriever.invoke("What are two movies about dinosaurs?")

应用场景分析

这种自查询检索技术适用于需要快速响应和高准确度的环境,比如电影推荐系统、知识库查询、客户支持自动化等。

实践建议

  1. 根据应用场景调整向量存储的维度和相似度度量方法(如使用余弦相似度)。
  2. 定义详细的元数据字段信息以支持高级查询。
  3. 定期更新嵌入模型和数据库数据以保持检索结果的准确性。

如果遇到问题欢迎在评论区交流。
—END—

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值