利用RAGAS评测RAG产品的自定义评测指标实现

最新推荐文章于 2025-09-25 02:39:39 发布

原创

最新推荐文章于 2025-09-25 02:39:39 发布 · 1k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#RAG

利用RAGAS评测RAG产品的自定义评测指标实现

RAGAS (Retrieval Augmented Generation Assessment Suite) 是一个用于评估检索增强生成(RAG)系统性能的工具包。下面我将介绍如何使用RAGAS实现自定义评测指标，包括实现方式和代码说明。

RAGAS基本概念

RAGAS主要评估RAG系统的以下方面：

检索质量：检索到的文档与查询的相关性
生成质量：生成回答的准确性、流畅性等
端到端性能：整个RAG流程的效果
自定义评测指标实现方式

安装RAGAS
首先需要安装RAGAS和相关依赖：

bash
pip install ragas
pip install langchain  # 如果使用LangChain作为RAG框架

基本RAGAS评估流程

python
from ragas import evaluate, load_metrics, list_metrics
from datasets import Dataset

假设我们有一个包含查询、检索文档和生成回答的数据集

data = [
    {
   
   
        "query": "What is the capital of France?",
        "contexts": ["Paris is the capital of France...", "France is a country in Europe..."],
        "answer": "The capital of France is Paris."
    },
    # 更多数据...
]
 
dataset = Dataset.from_list(data)

加载默认指标

metrics = load_metrics(["faithfulness", "answer_relevancy", "context_precision", "context_recall"])

评估

results = evaluate(dataset, metrics)
print(results)

自定义评测指标实现
要实现自定义指标，你需要：

定义一个评估函数
将其注册为RAGAS指标
示例1：自定义"信息丰富度"指标

python
from typing import Dict, Any, List
from datasets import Dataset
import numpy as np
from ragas.metrics.base import

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小赖同学啊

关注关注

19
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

【AI大模型应用开发】【RAG评估】1. 通俗易懂：深度理解RAGAS评估方法的原理与应用

同学小张的博客

02-25

5964

本文我们针对RAGAS评估方法进行详细介绍。我们将深入其原理，理解其评估指标背后是怎么实现的。都是我根据自己的理解用大白话解释，保证大家能看懂。

Ragas方法简介

ZJQ的博客

01-12

323

Ragas(Retrieval-Augmented Generation Assessment) 是一款专为评测增强检索生成(RAG)流程而精心构建的强大工具。Ragas方法简介Ragas是一种用于评估语言模型生成答案质量的框架。它主要关注语言模型生成的答案与给定的上下文（如检索到的文档）之间的相关性、准确性和完整性等多个维度，通过一系列指标和计算方法来量化答案的质量，从而帮助用户更好地理解和比较不同语言模型或者不同生成策略下的答案质量。举例说明Ragas方法的应用场景设定。

参与评论您还未登录，请先登录后发表或查看评论

用 Ragas 系统化评估你的 RAG 系统

Harry的博客

08-19

1156

支持单轮和多轮对话评估：BLEU、ROUGE、AspectCritic 等指标。可与 LLM 结合：通过 AspectCritic、Faithfulness、FactualCorrectness 等指标实现智能化评估。支持 RAG 系统端到端评估：从文档检索到答案生成，提供量化指标。与 Hugging Face Dataset 集成：可以直接使用公开数据集进行评测。RAGas 是一个非常适合研发和研究团队快速验证模型输出质量的工具，无论是生成式摘要、问答，还是 RAG 系统评估，都可以快速上手。

【大语言模型_7】利用ragas框架评测rag系统指标

没枕头我咋睡觉

03-19

753

ragas是一个用来评估RAG系统的框架，允许不在依赖人工注释的情况下，通过一套指标评估检索模块和生成模块的性能及其质量。上下文精确度【context precision】：用embedding模型通过余弦相似度来搜索与query相似的文本。用来衡量上下文中所有真实的消息是否排在了较高位置。上下文召回率【context recall 】：就是通过embedding模型检索到的上下文是否包含真实答案。用来衡量检索到的上下文与被视为事实真相的标注答案的一致性程度。他根据标注答案和检索到的上下文来计算。

Ragas评估指标相关性分析：多维度评测的协同作用

最新发布

gitblog_00537的博客

09-25

861

在检索增强生成（Retrieval-Augmented Generation, RAG）系统开发中，单一指标往往无法全面反映系统性能。Ragas作为专业的RAG评估框架，提供了多维度的评估指标体系，这些指标从不同角度量化系统表现，并通过协同作用帮助开发者定位瓶颈、优化流程。本文将深入分析Ragas核心评估指标的设计原理、计算逻辑及其在实际场景中的协同应用。 ## 评估指标体系架构 Ragas的...

Ragas-RAG能力评测

齐殿天下

01-20

1241

Ragas是一个框架，它可以帮助你从不同的方面评估你的问答（QA）流程。特别地，正如前面也提到的，为了使用 RAGAS，你所需要的只是一些问题。但是，如果你使用上下文召回率（context_recall），还需要一些。

小学生也能听得懂的大模型 - Transformer 1

2401_85325557的博客

07-29

1573

参考 [小学生也能听得懂的大模型 Transformer 1]

利用ragas 对RAG进行评测实现方式需要将数据保存成excel

主攻大数据人工智能物联网安全低空经济等方向。mtsc 、gtest特邀分享嘉宾

03-31

700

直观展示 RAG 系统的优缺点，并指导后续优化方向。是用于生成 Excel 文件的依赖库。通过以上步骤，你可以快速生成。

使用 RAGAS 评测 RAG（检索增强生成）系统的完整流程和代码实现

主攻大数据人工智能物联网安全低空经济等方向。mtsc 、gtest特邀分享嘉宾

04-15

1258

以下是使用fill:#333;color:#333;color:#333;fill:none;准备测试数据运行RAG系统收集输出结果RAGAS指标计算可视化分析。

如何通过Ragas对RAG应用进行评测：原理、指标与实战案例

努力分享一些人工智能、计算机视觉、影像等相关的知识干货！

03-20

1341

Ragas是专为RAG（检索增强生成）系统设计的自动化评估框架，通过结合大型语言模型（LLM）推理与向量相似度分析，解决传统评估方法依赖人工标注和黑盒问题的局限

RAGAS 对 RAG 系统进行全面测试，覆盖所有关键评测点

主攻大数据人工智能物联网安全低空经济等方向。mtsc 、gtest特邀分享嘉宾

03-31

772

对 RAG 系统进行全面测试，覆盖所有关键评测点，并判断其交互效果是否优秀，需从。改进 Embedding 模型/扩展检索库。三个维度系统化实施。：平均分 ≥4，愿意复用率 >80%。调整生成参数/temperature。，可系统性验证 RAG 的成熟度。优化 Prompt/增加检索约束。

深度测评 RAG 应用评估框架：指标最全面的 RAGas

m0_59235945的博客

10-17

1万+

本文介绍了如何使用 ragas 生成测试集，介绍了多个常用的 RAG 评估指标。本文生成测试集部分代码基于 ragas v0.1 版本编写，具有较多问题根本无法使用，升级 v0.2.0 后出现代码兼容问题无法运行，后续等我更新吧。评估部分 v0.2.0 是兼容的，并且我在 v0.1 下评估会报错类似等问题，在升级后完美解决了，也没有出现指标 NaN 或者 0 的情况，推荐使用。

高级RAG(四)：RAGAs评估

热门推荐

weixin_42608414的博客

01-03

2万+

RAGAs (Retrieval-AugmentedGenerationAssessment) 它是一个框架(github官方文档question：用户输入的问题。answer：从 RAG 系统生成的答案(由LLM给出)。contexts：根据用户的问题从外部知识源检索的上下文即与问题相关的文档。：人类提供的基于问题的真实(正确)答案。这是唯一的需要人类提供的信息。

Py之Ragas：Ragas(一款用于评估检索增强生成RAG流程的评估框架)的简介、安装、使用方法之详细攻略

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

06-16

4995

Py之Ragas：Ragas(一款用于评估检索增强生成RAG流程的评估框架)的简介、安装、使用方法之详细攻略目录 Ragas的简介 Ragas的安装 Ragas的使用方法 Ragas的简介 2023年5月15日，Ragas正式发布，这是一款用于评估检索增强生成（RAG）流程的评估框架。专门的解决方案，用于评估、监控和改进生产中的LLM和RAG应用的性能，包括用于生产质量监控的自定义模型。与创始人交谈 Ragas是一个框架，帮助您评估检索增强生成（RAG）流程。RAG表示一类LLM应用

LLM之RAG实战（三十二）| 使用RAGAs和LlamaIndex评估RAG

wshzd的博客

03-19

4100

第二个和第三个问题的上下文精度为0，表明检索到的上下文中的相关上下文没有排在最前面。此外，忠实度得分并不低，这表明答案主要是从上下文中得出或总结的，可以得出结论，答案不是由于LLM的幻觉而产生的。在RAGAs中，如果您想使用另一个LLM（如Gemini）来使用LlamaIndex进行评估，即使在调试了RAGAs的源代码后，我也没有在版本0.0.22中找到任何有用的方法。此外，我们发现，尽管我们的上下文相关性得分较低，gpt-3.5-turb-16k（RAGA的默认模型）仍然能够从中推断出答案。

可视化您的 RAG 数据 — 使用 Ragas 评估您的检索增强生成系统

liferecords的博客

03-08

2191

对于没有 ragas 的问题，它是 0.36，对于有 ragas 的问题，它是 0.52。预计该系统在处理 ragas 生成的问题时会表现得更好，因为这些问题是基于可用数据的，而 ChatGPT 直接生成的问题可能来自训练 ChatGPT 的所有数据。此外，许多不包含相关信息的维基百科特定文本添加，例如指向其他语言的链接或编辑注释，形成没有相邻问题的集群。它有助于在相关文档的上下文中查看问题。事实证明，同时转换问题和文档的相似性图对大量问题的帮助不大，因为或多或少的问题聚集在一起，并且往往与文档分开。

人工智能利用Ragas评测RAG系统的

主攻大数据人工智能物联网安全低空经济等方向。mtsc 、gtest特邀分享嘉宾

03-03

982

RAG（Retrieval Augmented Generation，检索增强生成）是一种结合检索和生成模型的技术，通过从外部知识源中检索相关信息来增强语言模型的回答能力。Ragas是一个用于评估RAG系统性能的开源框架，它提供了一系列的评估指标和工具。下面将详细介绍如何利用Ragas评测RAG系统。

深入理解RAG模型评估：Ragas与ARES框架

weixin_31176789的博客

04-29

541

本文介绍了RAG模型（Retrieval-Augmented Generation）在实际应用中的评估方法，通过Ragas和ARES两种工具进行详细阐述。Ragas提供了度量驱动开发的产品开发方法，强调持续监控关键指标，而ARES则侧重于自动化评估流程和分类器的准确性。文章通过实例展示了如何生成多样化和复杂的测试数据集，并采用LLM辅助指标对RAG系统的性能进行全面评估。