Ragas v0.2全面升级：四大核心改进解析-优快云博客

Ragas v0.2全面升级：四大核心改进解析

【免费下载链接】ragas Evaluation framework for your Retrieval Augmented Generation (RAG) pipelines 项目地址: https://gitcode.com/gh_mirrors/ra/ragas

你是否正在使用Ragas评估你的RAG（检索增强生成）系统？v0.2版本带来了重大架构升级，从评估库蜕变为通用LLM应用评估框架。本文将深入解析四大核心改进，帮助你快速掌握新版本的强大功能。读完本文后，你将能够：

理解Evaluation Dataset的设计理念及使用方法
掌握Metrics的新初始化方式和评分API
了解Testset Generation的成本优化策略
学会使用全新的Prompt Object定制评估逻辑

Evaluation Dataset：从HF Dataset到自定义数据模型

Ragas v0.2最显著的变化是引入了自定义的[EvaluationDataset][ragas.dataset_schema.EvaluationDataset]，取代了之前使用的HuggingFace Dataset。这一改进使数据处理更加灵活，同时支持更复杂的评估场景。

新的EvaluationDataset提供了简洁的API，方便你从现有数据格式转换：

from ragas import EvaluationDataset, SingleTurnSample

# 从HuggingFace Dataset转换
hf_dataset = ... # 你的HuggingFace数据集
eval_dataset = EvaluationDataset.from_hf_dataset(hf_dataset)

# 保存和加载数据集
eval_dataset.to_csv("path/to/save/dataset.csv")
eval_dataset = EvaluationDataset.from_csv("path/to/save/dataset.csv")

这一设计不仅简化了数据管理，还为后续的多轮对话评估奠定了基础。你可以在评估数据集概念文档中了解更多细节。

Metrics：更灵活的初始化和评分方式

v0.2版本对Metrics系统进行了全面重构，提供了更灵活的初始化方式和统一的评分API。主要变化包括：

支持自定义评估LLM（Large Language Model，大型语言模型）
引入single_turn_ascore和multi_turn_ascore方法
支持离散、数值和排序三种输出类型

新的Metrics初始化方式更加直观：

from ragas.metrics import Faithfulness

# 推荐方式：指定评估LLM
faithfulness_metric = Faithfulness(llm=your_evaluator_llm)

评分API也进行了标准化：

from ragas import SingleTurnSample

# 创建评估样本
sample = SingleTurnSample(
    user_input="user query",
    response="response from your pipeline",
    retrieved_contexts=["retrieved", "contexts", "from your pipeline"]
)

# 计算评分
await faithfulness_metric.single_turn_ascore(sample)

v0.2还新增了多种 metrics，你可以在可用指标文档中查看完整列表。