ZenML项目中的重排序模型性能评估指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00573/article/details/148524565

ZenML项目中的重排序模型性能评估指南

zenml 项目地址: https://gitcode.com/gh_mirrors/zen/zenml

引言

在构建RAG（检索增强生成）系统时，重排序（reranking）是一个关键环节，它能够对初步检索到的文档进行二次排序，从而提升最终结果的准确性。本文将详细介绍如何在ZenML项目中评估重排序模型的性能。

重排序性能评估基础

评估重排序模型性能的最直接方法是比较使用重排序前后的检索效果。我们可以使用相同的评估指标来衡量系统改进情况。

评估数据集准备

评估过程需要两类数据：

人工精心设计的查询和相关文档集
由大语言模型自动生成的合成查询集

核心评估实现

评估的核心逻辑通过perform_retrieval_evaluation函数实现：

def perform_retrieval_evaluation(sample_size: int, use_reranking: bool) -> float:
    """执行检索评估的辅助函数"""
    # 加载数据集并采样
    dataset = load_dataset("zenml/rag_qa_embedding_questions", split="train")
    sampled_dataset = dataset.shuffle(seed=42).select(range(sample_size))
    
    total_tests = len(sampled_dataset)
    failures = 0
    
    for item in sampled_dataset:
        question = item["generated_questions"][0]  # 获取问题
        url_ending = item["filename"].split("/")[-1]  # 获取期望的URL结尾
        
        # 查询相似文档，根据参数决定是否使用重排序
        _, _, urls = query_similar_docs(question, url_ending, use_reranking)
        
        # 检查结果中是否包含期望的URL
        if all(url_ending not in url for url in urls):
            failures += 1
    
    failure_rate = (failures / total_tests) * 100
    return round(failure_rate, 2)

评估步骤设计

在ZenML中，我们设计了两个独立的评估步骤：

@step
def retrieval_evaluation_full(sample_size: int = 100) -> Annotated[float, "full_failure_rate_retrieval"]:
    """不使用重排序的检索评估步骤"""
    failure_rate = perform_retrieval_evaluation(sample_size, use_reranking=False)
    return failure_rate

@step
def retrieval_evaluation_full_with_reranking(sample_size: int = 100) -> Annotated[float, "full_failure_rate_retrieval_reranking"]:
    """使用重排序的检索评估步骤"""
    failure_rate = perform_retrieval_evaluation(sample_size, use_reranking=True)
    return failure_rate

评估结果分析

通过日志可以查看具体的失败案例，例如：

Failed for question: "How do I develop a custom alerter..."
Expected URL ending: feature-stores
Got: ['https://.../alerters/custom', ...]

这个例子展示了重排序模型未能正确识别相关文档的情况。值得注意的是，某些问题可能包含多个子问题，这会影响评估的准确性，需要特别关注。

可视化评估结果

ZenML支持将评估结果可视化展示。我们可以将所有评估指标整合到一个图表中：

@step(enable_cache=False)
def visualize_evaluation_results(...) -> Optional[Image.Image]:
    """可视化评估结果"""
    # 创建图表
    fig, ax = plt.subplots(figsize=(10, 6))
    
    # 绘制水平条形图
    ax.barh(y_pos, scores, align="center")
    ax.set_yticks(y_pos)
    ax.set_yticklabels(labels)
    ax.set_title(f"Evaluation Metrics for {pipeline_run_name}")
    
    # 保存图像
    buf = io.BytesIO()
    plt.savefig(buf, format="png")
    return Image.open(buf)

典型的评估结果图表会显示：