ZenML项目中的RAG数据预处理指南

皮奕清Primavera

于 2025-06-09 09:04:47 发布

阅读量286

点赞数 5

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00128/article/details/148524532

ZenML项目中的RAG数据预处理指南

zenml 项目地址: https://gitcode.com/gh_mirrors/zen/zenml

什么是RAG数据预处理

在构建检索增强生成(RAG)系统时，数据预处理是至关重要的第一步。RAG系统通过结合检索器和生成器模型的能力，能够提供更准确、更相关的回答。本文将详细介绍如何在ZenML项目中实现RAG系统的数据预处理流程。

数据获取阶段

URL爬取实现

在ZenML项目中，我们首先需要获取用于训练和评估的数据源。一个常见的做法是从相关文档网站爬取内容：

from typing import List
from typing_extensions import Annotated
from zenml import log_artifact_metadata, step
from steps.url_scraping_utils import get_all_pages

@step
def url_scraper(
    docs_url: str = "https://docs.zenml.io",
    repo_url: str = "https://github.com/zenml-io/zenml",
    website_url: str = "https://zenml.io",
) -> Annotated[List[str], "urls"]:
    """生成需要爬取的相关URL列表"""
    docs_urls = get_all_pages(docs_url)
    log_artifact_metadata(
        metadata={
            "count": len(docs_urls),
        },
    )
    return docs_urls

这个步骤的关键点在于：

使用自定义的get_all_pages函数爬取文档网站
通过log_artifact_metadata记录爬取的URL数量
返回URL列表供后续处理

网页内容解析

获取URL列表后，下一步是解析网页内容：

from typing import List
from unstructured.partition.html import partition_html
from zenml import step

@step
def web_url_loader(urls: List[str]) -> List[str]:
    """从URL列表加载文档内容"""
    document_texts = []
    for url in urls:
        elements = partition_html(url=url)
        text = "\n\n".join([str(el) for el in elements])
        document_texts.append(text)
    return document_texts

这里使用了unstructured库来解析HTML内容，它能自动处理各种HTML结构，提取出纯文本内容。这种方法简化了后续处理，因为我们不需要关心原始HTML的复杂结构。

数据预处理阶段

文本分块处理

原始文档通常过长，不适合直接输入LLM模型，因此需要进行分块处理：

import logging
from typing import Annotated, List
from utils.llm_utils import split_documents
from zenml import ArtifactConfig, log_artifact_metadata, step

logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

@step(enable_cache=False)
def preprocess_documents(
    documents: List[str],
) -> Annotated[List[str], ArtifactConfig(name="split_chunks")]:
    """通过分块预处理文档列表"""
    try:
        log_artifact_metadata(
            artifact_name="split_chunks",
            metadata={
                "chunk_size": 500,
                "chunk_overlap": 50
            },
        )
        return split_documents(
            documents, chunk_size=500, chunk_overlap=50
        )
    except Exception as e:
        logger.error(f"预处理文档时出错: {e}")
        raise

分块处理的关键参数：