Ragas v0.2全面升级:四大核心改进解析
你是否正在使用Ragas评估你的RAG(检索增强生成)系统?v0.2版本带来了重大架构升级,从评估库蜕变为通用LLM应用评估框架。本文将深入解析四大核心改进,帮助你快速掌握新版本的强大功能。读完本文后,你将能够:
- 理解Evaluation Dataset的设计理念及使用方法
- 掌握Metrics的新初始化方式和评分API
- 了解Testset Generation的成本优化策略
- 学会使用全新的Prompt Object定制评估逻辑
Evaluation Dataset:从HF Dataset到自定义数据模型
Ragas v0.2最显著的变化是引入了自定义的[EvaluationDataset][ragas.dataset_schema.EvaluationDataset],取代了之前使用的HuggingFace Dataset。这一改进使数据处理更加灵活,同时支持更复杂的评估场景。
新的EvaluationDataset提供了简洁的API,方便你从现有数据格式转换:
from ragas import EvaluationDataset, SingleTurnSample
# 从HuggingFace Dataset转换
hf_dataset = ... # 你的HuggingFace数据集
eval_dataset = EvaluationDataset.from_hf_dataset(hf_dataset)
# 保存和加载数据集
eval_dataset.to_csv("path/to/save/dataset.csv")
eval_dataset = EvaluationDataset.from_csv("path/to/save/dataset.csv")
这一设计不仅简化了数据管理,还为后续的多轮对话评估奠定了基础。你可以在评估数据集概念文档中了解更多细节。
Metrics:更灵活的初始化和评分方式
v0.2版本对Metrics系统进行了全面重构,提供了更灵活的初始化方式和统一的评分API。主要变化包括:
- 支持自定义评估LLM(Large Language Model,大型语言模型)
- 引入single_turn_ascore和multi_turn_ascore方法
- 支持离散、数值和排序三种输出类型
新的Metrics初始化方式更加直观:
from ragas.metrics import Faithfulness
# 推荐方式:指定评估LLM
faithfulness_metric = Faithfulness(llm=your_evaluator_llm)
评分API也进行了标准化:
from ragas import SingleTurnSample
# 创建评估样本
sample = SingleTurnSample(
user_input="user query",
response="response from your pipeline",
retrieved_contexts=["retrieved", "contexts", "from your pipeline"]
)
# 计算评分
await faithfulness_metric.single_turn_ascore(sample)
v0.2还新增了多种 metrics,你可以在可用指标文档中查看完整列表。
Testset Generation:更经济高效的测试集生成
测试集生成模块进行了彻底重设计,显著降低了成本并提高了灵活性。主要改进包括:
- 移除Docstore,引入全新的Knowledge Graph(知识图谱)
- 添加Transforms,支持文档到知识图谱的转换
- 引入Synthesizer对象,支持更灵活的测试集生成
新的工作流程不仅大幅降低了API调用成本,还支持中间状态保存,方便调试和优化。你可以在RAG测试集生成指南中了解详细使用方法。
Prompt Object:更强大的提示词管理
v0.2版本引入了基于Pydantic的全新Prompt Object系统,取代了旧的Prompt对象。新设计基于BasePrompt和PydanticPrompt,提供了更强大的模板管理和参数验证功能。
新的Prompt系统支持更复杂的提示词逻辑,你可以在自定义提示词指南中学习如何创建和使用自定义提示词。
如何升级到v0.2
升级到v0.2版本非常简单,只需更新你的ragas安装:
pip install --upgrade ragas
然后根据迁移指南调整你的代码。主要需要注意的是Evaluation Dataset和Metrics的使用方式变化。
总结与展望
Ragas v0.2版本通过引入Evaluation Dataset、重构Metrics系统、优化Testset Generation和升级Prompt Object,实现了从RAG评估库到通用LLM应用评估框架的转变。这些改进不仅提升了评估的灵活性和准确性,还显著降低了使用成本。
如果你在升级过程中遇到任何问题,可以查看GitHub讨论区获取帮助。
随着v0.2的发布,Ragas正在朝着更全面、更灵活的LLM应用评估平台迈进。我们期待看到社区如何利用这些新功能构建更可靠、更高效的AI应用。
别忘了点赞、收藏本文,关注项目更新,以便及时了解Ragas的最新进展!
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考








