ragas precision计算的坑

最新推荐文章于 2025-08-15 21:30:34 发布

原创

最新推荐文章于 2025-08-15 21:30:34 发布 · 387 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#langchain #ragas #rag #大模型

最近在做RAG评测，用到了ragas框架。
在计算ContextPrecision时，发现计算结果跟我理解的不一样。

        sample = SingleTurnSample(
            user_input=user_input,
            reference=reference,
            retrieved_contexts=retrieved_contexts,
        )
        context_precision = LLMContextPrecisionWithReference(llm=self.evaluator_llm)
        precision = context_precision.single_turn_score(sample)

调用代码如上，ragas计算precision的原理是通过大模型判断参考答案(reference)与检索到的内容(retrieved_contexts)的相关性。比如检索到两个相关材料，一个相关，一个不相关，则结果为[1,0]。
然后通过如下的函数计算平均精度：

    def _calculate_average_precision(
            self, verifications: t.List

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Unknown_unknown

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【AI大模型应用开发】【RAG评估】1. 通俗易懂：深度理解RAGAS评估方法的原理与应用

同学小张的博客

02-25

5990

本文我们针对RAGAS评估方法进行详细介绍。我们将深入其原理，理解其评估指标背后是怎么实现的。都是我根据自己的理解用大白话解释，保证大家能看懂。

利用 RAGAs（Retrieval-Augmented Generation Assessment）框架评估 RAG 类产品

主攻大数据人工智能物联网安全低空经济等方向。mtsc 、gtest特邀分享嘉宾

06-09

148

利用框架评估 RAG 类产品，需系统性设计评测维度、数据集构建及结果分析方法。

参与评论您还未登录，请先登录后发表或查看评论

Ragas评测框架如何衡量检索增强生成系统RAG的性能

qingkahui24689的博客

11-11

1753

Ragas是一个评估检索增强生成（RAG）系统的性能的框架。它提供了一种结构化的方法，可以通过一套适用于无需大量标注数据的管道中的生成器和检索器组件。Ragas提供了几种衡量指标，可用于评估您的RAG系统各方面的表现：检索器相关：提供和，用于衡量检索系统性能。上下文精度context_precision 用于衡量检索到的上下文与问题相关程度。上下文召回衡量检索器检索所有必要信息以回答问题的能力。生成器相关:提供衡量幻觉的和衡量答案与问题相关程度的。

RAG:系统评估，以RAGAS为例

qq_43814415的博客

08-15

2667

面试的时候经常会问到，模型和系统是怎么评估的，尤其是RAG，这么多组件，还有端到端，每部分有哪些指标评估，怎么实现的。今天整理下目前最通用的是RAGAS框架，已经在langchain集成了。在看它之前，首先要了解整个业界是怎么做的。

通过代码彻底搞懂 Ragas 的 Context Precision 是什么

engchina的专栏

12-30

1930

通过代码彻底搞懂 Ragas 的 Context Precision 是什么

RAG评价框架RAGAs指标解释

qq_41913559的博客

10-18

3436

值范围在 0 到 1 之间，其中分数越高表示精度越高。它是根据ground truth和检索到的Context计算出来的，取值范围在 0 到 1 之间，值越高表示性能越好。**来计算，范围为（0~1），得分越高越说明生成的答案与真实的答案更接近，也就意味着准确性越高。)是否相关，然后计算指标，如果大模型判断相关，并且该上下文的排名靠前，那么分数较高。如果列表为[1,1,0,0]那么最终的分数就是1，)一直，如果大模型判断一致就返回1，不一致返回0。这段代码会给1在列表前面的情况高的分数。

以度量为驱动的代理开发RAGAS：提升RAG性能的关键

chinaai777的博客

08-26

873

今天我们要讨论的是以度量为驱动的代理开发，特别是如何通过度量来评估代理在检索信息和生成答案方面的表现。这个度量驱动的方法的核心理念是，通过在我们的pipline中添加评估，我们可以更快速地迭代代理和检索生成（RAG）性能。这正是我们将在这里重点讨论的内容：如何通过Langchain将RAG应用于对话代理。

RAG技术全栈进化解析：RAG技术升级、评估度量指标、应用场景、生态总结、落地实践问题解决、垂直场景应用、多模态RAG探索(✨)

丨汀、的博客

09-04

1939

RAG技术全栈进化解析：RAG技术升级、评估度量指标、应用场景、生态总结、落地实践问题解决、垂直场景应用、多模态RAG探索(✨)

提示工程性能测试：工具、方法与避坑指南

热门推荐

weixin_42608414的博客

01-03

2万+

RAGAs (Retrieval-AugmentedGenerationAssessment) 它是一个框架(github官方文档question：用户输入的问题。answer：从 RAG 系统生成的答案(由LLM给出)。contexts：根据用户的问题从外部知识源检索的上下文即与问题相关的文档。：人类提供的基于问题的真实(正确)答案。这是唯一的需要人类提供的信息。

RAGAS

emphmeral的博客

01-12

1177

（对生成的答案有害性和正确性进行评估）其目的是根据预定义的方面（例如和）评估提交。此外，用户可以灵活地定义自己的方面，以便根据自己的具体标准评估提交内容。方面批评的输出是二进制的，指示提交是否与定义的方面一致。该评估是使用“答案”作为输入来执行的。LLM 评估员内部的批评根据所提供的方面评估提交的内容。Ragas Critiques 提供了一系列预定义的方面，例如正确性、有害性等（请参阅以获取完整列表）。如果您愿意，您还可以创建自定义方面来根据您的独特要求评估提交内容。strictness。

父文档检索器引和RAG的context precision性能指标

Criss@陈磊

06-03

345

但是由于父文档检索器的特殊性，父文档检索器通过检索小片段（child chunks）来确保嵌入的精确性（因为小片段的嵌入更能反映具体含义），然后返回对应的父文档以提供更广泛的上下文。上下文精度会通过加权机制惩罚这些情况。它的特别之处在于，它会先把文档分成小块（子片段），然后找到最相关的小块，再返回这些小块所属的完整大文档（父文档）。在使用父文档检索器时候，在查看context precision时会出现结果很低的情况，这并不能说是父文档检索器的性能不好，这其实是父文档检索器这个技术的本质导致的。

AI大模型探索之路-应用篇11：AI大模型应用智能评估（Ragas）

寻道AI，探索AI无限可能！

04-13

4960

随着人工智能技术的飞速发展，AI大模型（LLM）已经成为了推动技术创新和应用的关键因素。这些大模型在语言理解、图像识别、自然语言生成等领域展现出了惊人的能力。然而，随着模型规模的增大，它们对计算资源的消耗、环境适应性、模型稳定性、安全性和可解释性等方面也提出了新的挑战。因此，对AI大模型进行智能评估变得至关重要，以确保它们在实际应用中的稳定性、可靠性和有效性。本文将详细介绍Ragas框架，一个专为AI大模型设计的智能评估工具。

RAG 修炼手册｜如何评估 RAG 应用？

ZILLIZ

04-23

1906

在设计这些 prompt 时，有时还要考虑 LLM 的一些偏见，比如 LLM 常见的位置偏见：当 prompt 比较长时，LLM 容易注意到 prompt 里前面的一些内容，而忽略一些中间位置的内容。因此内部的一些关键组件就可以决定这个 RAG 应用表现的好坏。当以黑盒方式来评估 RAG 应用时，我们看不到 RAG 应用的内部，只能从输入给 RAG 应用的信息和它返回的信息来评估 RAG 的效果。但对于一些比较简单的 query 测试，比如标准答案只有一些简单的短语的，也可以使用一些经典的指标。

LLM评测框架Ragas:Ragas的核心概念Evaluation

Criss@陈磊

07-09

295

Evaluation Dataset中的样本是SingleTurnSample或者MultiSample的集合，每一个Sample都代表了一个唯一的交互场景。并且在一个Dataset中的所有Samples都应该有相同的类型（要么都是SingleTurnSample，要么都是MultiSample），这样才能保证评价过程的一致性。在MultiTurnSample里面的user_input是一个了列表，存储了上面多轮交互中的用户输入的消息。比较适合在成对出现的问答方式的大模型应用中进行评价。

RAGAS评估系统（适用于对话系统）

jiao_mrswang的博客

12-01

1106

RAGAS（(etrieval-ugmentedenerationsessment）：用来评估RAG系统性能的框架。

Python----大模型（RAG 的智能评估-Ragas）

weixin_64110589的博客

07-29

1339

RAGAs（Retrieval-Augmented Generation Assessment）是一个用于评估RAG（检索增强生成）系统性能的框架。它通过四个核心指标衡量系统表现：Context Precision（上下文精度）。Context Recall（上下文召回）Response Relevancy（响应相关性）Faithfulness（忠诚度）

使用LangSmith追踪Ragas评估指标的技术指南

gitblog_00460的博客

06-04

339

使用LangSmith追踪Ragas评估指标的技术指南【免费下载链接】ragas Evaluation framework for your Retrieval Augmented Generation (RAG) pipelines ...

Ragas

07-01

- 官方文档：https://docs.ragas.io/（涵盖快速入门、评估指标如 $ \text{F1-score} $ 和 $ \text{precision} $ 的计算方法，以及配置教程） - **教程和博客文章**：这些资源提供实践案例和深入分析。 - 入门教程...