RAGAS评估系统(适用于对话系统)

 RAGAS((Retrieval-Augmented Generation Assessment):用来评估RAG系统性能的框架。

RAGAS评估数据集包含四部分:

Question:用户输入的问题。

Answer:RAG系统生成的答案。

Contexts:根据用户的问题从外部知识源检索的上下文即与问题相关的文档。

Ground_Truths:人类提供的基于问题的真实(正确)答案。 这是唯一的需要人类提供的信息。

RAGAS评估指标分为两部分:

(1)检索器评估指标:上下文精度、上下文召回、上下文相关性

上下文精度(Context precision):

上下文精度是一种衡量标准,它评估所有在上下文(contexts)中呈现的与基本事实(ground-truth)相关的条目是否排名较高。理想情况下,所有相关文档块(chunks)必须出现在顶层。该指标使用question和计算contexts,值范围在 0 到 1 之间,其中分数越高表示精度越高。

上下文召回(Context Recall):

衡量检索到的上下文(Context)与人类提供的真实答案(ground truth)的一致程度。它是根据ground truth和检索到的Context计算出来的,取值范围在 0 到 1 之间,值越高表示性能越好。在理想情况下,真实答案中的所有句子都应归因于检索到的Context。

上下文相关性(Context Relevance):

该指标衡量检索到的上下文(Context)的相关性,根据用户问题(question)和上下文(Context)计算得到,并且取值范围在 (0, 1)之间,值越高表示相关性越好。理想情况下,检索到的Context应只包含解答question的信息。 我们首先通过识别检索到的Context中与回答question相关的句子数量来估计 |S| 的值。 最终分数由以下公式确定:

(2)生成器评估指标:忠实度、答案相关性

忠实度(Faithfulness):衡量RAG生成的答案与检索到的文档(Context)的相关程度。如果答案(answer)中提出的所有基本事实(claims)都可以从给定的上下文(context)中推断出来,则生成的答案被认为是忠实的。将计算结果缩放到 (0,1) 范围且越高越好。

答案相关性(Answer Relevance):重点评估生成的答案(answer)与用户问题(question)之间相关程度。不完整或包含冗余信息的答案将获得较低分数。该指标是通过计算question和answer获得的,它的取值范围在 0 到 1 之间,其中分数越高表示相关性越好。不考虑答案的正确性,但是对答案不完整或包含冗余信息的情况进行惩罚。

RAGAS系统的调用:

参考文章:高级RAG(四):RAGAs评估-优快云博客

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值