利用Zilliz Cloud Pipelines进行智能数据处理与检索

最新推荐文章于 2025-11-24 15:28:47 发布

原创最新推荐文章于 2025-11-24 15:28:47 发布 · 412 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#python

技术背景介绍

Zilliz Cloud Pipelines是一种强大的工具，可以将非结构化数据转换为可搜索的向量集合。它通过嵌入、摄取、搜索和删除数据的功能链，为用户提供简便的操作体验。用户可以通过Zilliz Cloud控制台和RESTful API来访问这些功能。

核心原理解析

Zilliz Cloud Pipelines的核心理念是将数据处理过程模块化，这样用户可以更加灵活地管理自己的数据流。例如，用户可以通过不同的Pipeline ID来分别管理文档的摄取、搜索及删除操作。通过与LangChain结合，用户能够轻松地实现智能文档检索。

代码实现演示

下面我将展示如何配置和使用Zilliz Cloud Pipelines以便利用LangChain Retriever进行数据处理和检索。

1. 准备环境

首先，确保你已经安装了必要的Python包。

%pip install --upgrade --quiet langchain-milvus

2. 配置Zilliz Cloud Pipelines

在进行下一步之前，确保在Zilliz Cloud上注册并创建集群。

from langchain_milvus import ZillizCloudPipelineRetriever

# 设置检索器
retriever = ZillizCloudPipelineRetriever(
    pipeline_ids={
        "ingestion": "<YOUR_INGESTION_PIPELINE_ID>",  # 文档摄取
        "search": "<YOUR_SEARCH_PIPELINE_ID>",        # 文档搜索
        "deletion": "<YOUR_DELETION_PIPELINE_ID>",    # 文档删除
    },
    token="<YOUR_ZILLIZ_CLOUD_API_KEY>",
)

3. 添加文档

可以通过文本或文档URL的方式添加文档：

# 使用文档URL进行添加
retriever.add_doc_url(
    doc_url="https://publicdataset.zillizcloud.com/milvus_doc.md",
    metadata={"version": "v2.3.x"}  # 为摄取管道设定的元数据
)

4. 获取相关文档

接下来，通过提供查询来获取相关文档：

results = retriever.get_relevant_documents(
    query="Can users delete entities by complex boolean expressions?"
)

for doc in results:
    print(doc.page_content)