Ragas v0.2全面升级:四大核心改进解析

Ragas v0.2全面升级:四大核心改进解析

【免费下载链接】ragas Evaluation framework for your Retrieval Augmented Generation (RAG) pipelines 【免费下载链接】ragas 项目地址: https://gitcode.com/gh_mirrors/ra/ragas

你是否正在使用Ragas评估你的RAG(检索增强生成)系统?v0.2版本带来了重大架构升级,从评估库蜕变为通用LLM应用评估框架。本文将深入解析四大核心改进,帮助你快速掌握新版本的强大功能。读完本文后,你将能够:

  • 理解Evaluation Dataset的设计理念及使用方法
  • 掌握Metrics的新初始化方式和评分API
  • 了解Testset Generation的成本优化策略
  • 学会使用全新的Prompt Object定制评估逻辑

Evaluation Dataset:从HF Dataset到自定义数据模型

Ragas v0.2最显著的变化是引入了自定义的[EvaluationDataset][ragas.dataset_schema.EvaluationDataset],取代了之前使用的HuggingFace Dataset。这一改进使数据处理更加灵活,同时支持更复杂的评估场景。

评估流程改进

新的EvaluationDataset提供了简洁的API,方便你从现有数据格式转换:

from ragas import EvaluationDataset, SingleTurnSample

# 从HuggingFace Dataset转换
hf_dataset = ... # 你的HuggingFace数据集
eval_dataset = EvaluationDataset.from_hf_dataset(hf_dataset)

# 保存和加载数据集
eval_dataset.to_csv("path/to/save/dataset.csv")
eval_dataset = EvaluationDataset.from_csv("path/to/save/dataset.csv")

这一设计不仅简化了数据管理,还为后续的多轮对话评估奠定了基础。你可以在评估数据集概念文档中了解更多细节。

Metrics:更灵活的初始化和评分方式

v0.2版本对Metrics系统进行了全面重构,提供了更灵活的初始化方式和统一的评分API。主要变化包括:

  1. 支持自定义评估LLM(Large Language Model,大型语言模型)
  2. 引入single_turn_ascore和multi_turn_ascore方法
  3. 支持离散、数值和排序三种输出类型

组件级指标

新的Metrics初始化方式更加直观:

from ragas.metrics import Faithfulness

# 推荐方式:指定评估LLM
faithfulness_metric = Faithfulness(llm=your_evaluator_llm)

评分API也进行了标准化:

from ragas import SingleTurnSample

# 创建评估样本
sample = SingleTurnSample(
    user_input="user query",
    response="response from your pipeline",
    retrieved_contexts=["retrieved", "contexts", "from your pipeline"]
)

# 计算评分
await faithfulness_metric.single_turn_ascore(sample)

v0.2还新增了多种 metrics,你可以在可用指标文档中查看完整列表。

Testset Generation:更经济高效的测试集生成

测试集生成模块进行了彻底重设计,显著降低了成本并提高了灵活性。主要改进包括:

  • 移除Docstore,引入全新的Knowledge Graph(知识图谱)
  • 添加Transforms,支持文档到知识图谱的转换
  • 引入Synthesizer对象,支持更灵活的测试集生成

RAG场景

新的工作流程不仅大幅降低了API调用成本,还支持中间状态保存,方便调试和优化。你可以在RAG测试集生成指南中了解详细使用方法。

Prompt Object:更强大的提示词管理

v0.2版本引入了基于Pydantic的全新Prompt Object系统,取代了旧的Prompt对象。新设计基于BasePromptPydanticPrompt,提供了更强大的模板管理和参数验证功能。

测试集输出

新的Prompt系统支持更复杂的提示词逻辑,你可以在自定义提示词指南中学习如何创建和使用自定义提示词。

如何升级到v0.2

升级到v0.2版本非常简单,只需更新你的ragas安装:

pip install --upgrade ragas

然后根据迁移指南调整你的代码。主要需要注意的是Evaluation Dataset和Metrics的使用方式变化。

总结与展望

Ragas v0.2版本通过引入Evaluation Dataset、重构Metrics系统、优化Testset Generation和升级Prompt Object,实现了从RAG评估库到通用LLM应用评估框架的转变。这些改进不仅提升了评估的灵活性和准确性,还显著降低了使用成本。

Ragas工作流程

如果你在升级过程中遇到任何问题,可以查看GitHub讨论区获取帮助。

随着v0.2的发布,Ragas正在朝着更全面、更灵活的LLM应用评估平台迈进。我们期待看到社区如何利用这些新功能构建更可靠、更高效的AI应用。

别忘了点赞、收藏本文,关注项目更新,以便及时了解Ragas的最新进展!

【免费下载链接】ragas Evaluation framework for your Retrieval Augmented Generation (RAG) pipelines 【免费下载链接】ragas 项目地址: https://gitcode.com/gh_mirrors/ra/ragas

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值