如何使用LangChain构建查询分析过滤器

使用LangChain构建查询分析过滤器

最新推荐文章于 2025-12-05 12:35:15 发布

原创最新推荐文章于 2025-12-05 12:35:15 发布 · 282 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#langchain #jenkins #运维

在现代信息检索系统中，构建有效的查询过滤器对提高查询结果的准确性至关重要。为了实现这一目标，我们可以利用大语言模型（LLM）生成的过滤器描述，将这些描述转换为具体检索器可用的过滤格式。在本文中，我们将探讨如何使用LangChain中的“Translators”将Pydantic模型转换为可用于不同检索器的过滤器。

技术背景介绍

在查询分析中，我们可能需要将用户查询中的某些属性提取为过滤条件，例如根据年份或作者进行筛选。传统上，这需要手动编写代码来将过滤条件转换为检索器可识别的格式。LangChain提供了一种自动化方法，通过Translators帮助实现这一转换。

核心原理解析

LangChain中的Translators能够将通用的过滤表达式翻译为特定检索器（如Elasticsearch或Chroma）格式的过滤表达式。使用这些翻译器，可以轻松地在不同的检索系统之间切换，而无需更新过滤表达式的构造逻辑。

代码实现演示(重点)

以下是如何使用LangChain构建查询过滤器的完整示例代码：

from typing import Optional
from langchain.chains.query_constructor.ir import (
    Comparator,
    Comparison,
    Operation,
    Operator,
)
from langchain.retrievers.self_query.chroma import ChromaTranslator
from langchain.retrievers.self_query.elasticsearch import ElasticsearchTranslator
from langchain_core.pydantic_v1 import BaseModel

# 定义查询模型
class Search(BaseModel):
    query: str
    start_year: Optional[int]
    author: Optional[str]

# 实例化查询
search_query = Search(query="RAG", start_year=2022, author="LangChain")

# 构建比较对象列表
def construct_comparisons(query: Search):
    comparisons = []
    if query.start_year is not None:
        comparisons.append(
            Comparison(
                comparator=Comparator.GT,
                attribute="start_year",
                value=query.start_year,
            )
        )
    if query.author is not None:
        comparisons.append(
            Comparison(
                comparator=Comparator.EQ,
                attribute="author",
                value=query.author,
            )
        )
    return comparisons

comparisons = construct_comparisons(search_query)

# 定义过滤操作
_filter = Operation(operator=Operator.AND, arguments=comparisons)

# 使用Elasticsearch Translator进行翻译
es_filter = ElasticsearchTranslator().visit_operation(_filter)
print(es_filter)
# 输出: 
# {'bool': {'must': [{'range': {'metadata.start_year': {'gt': 2022}}},
#                    {'term': {'metadata.author.keyword': 'LangChain'}}]}}

# 使用Chroma Translator进行翻译
chroma_filter = ChromaTranslator().visit_operation(_filter)
print(chroma_filter)
# 输出:
# {'$and': [{'start_year': {'$gt': 2022}}, {'author': {'$eq': 'LangChain'}}]}