《Advanced RAG》-03-使用 RAGAs + LlamaIndex 进行 RAG 评估

摘要

文章首先介绍了 RAG 评估的三个主要部分:输入查询、检索上下文和 LLM 生成的响应。

提到了 RAGAs 提出的 RAG 评估指标,包括 Faithfulness、Answer Relevance 和 Context Relevance,以及 RAGAs 网站提供的两个额外指标:Context Precision 和 Context Recall。详细解释了每个指标的计算方法,并提供了一些示例。

最后,它介绍了使用 RAGAs 和 LlamaIndex 进行 RAG 评估的主要过程。

文章观点

RAG 评估是一个复杂的过程,需要多种指标来评估 RAG 的有效性。RAGAs 和 LlamaIndex 提供了一种有效的方法来进行 RAG 评估,可以帮助开发人员改进 RAG 应用程序的性能。

如果为实际业务系统开发了一个检索增强生成(RAG)应用程序,有效性会很重要。换句话说,需要评估 RAG 的性能如何。

如果发现现有的 RAG 不够有效,可能需要验证 RAG 改进方法的有效性。同时也需要进行评估,看看这些改进方法是否有效。

在本文中,首先介绍 论文 RAGAs(Retrieval Augmented Generation Assessment)提出的 RAG 评估指标,这是一个用于评估 RAG 管道的框架。然后,将继续解释如何使用 RAGAs + LlamaIndex 实现整个评估流程。

RAG 评估指标

简单地说,RAG 过程包括三个主要部分:输入查询、检索上下文和 LLM 生成的内容。这三个要素构成了 RAG 过程中最重要的三要素,并且相互依存。

因此,如图 1 所示,可以通过衡量这些三元组之间的相关性来评估 RAG 的有效性。

图 1:可以通过衡量这些三要素之间的相关性来评估 RAG 的有效性。

论文 RAGAs(Retrieval Augmented Generation Assessment)总共提到了 3 个指标:这些指标无需访问人工标注的数据集或参考答案。

此外,RAGAs 网站还介绍了另外两个指标:上下文精确度和上下文召回率。

忠实性|稳定性(Faithfulness/Groundedness)

忠实性:是指确保答案以给定的上下文为基础。

这对于避免错觉和确保检索到的上下文可用作生成答案的理由非常重要。

如果得分较低,则表明LLM的回答与检索到的知识不符,提供幻觉答案的可能性就会增加。例如
在这里插入图片描述
为了估计忠实性,我们首先使用 LLM 提取一组语句 S(a(q))。具体方法如下:

Given a question and answer, create one or more statements from each sentence in the given answer.
question: [question]
answer: [answer]

生成 S(a(q))后,LLM 会判断每条语句 si是否都能从 c(q)中推断出来。这一验证步骤通过以下提示进行:

Consider the given context and following statements, then determine whether they are supported by the information present in the context. Provide a brief explan ation for each statement before arriving at the verdict (Yes/No). Provide a final verdict for each statement in order at the end in the given format. Do not deviate from the specified format.

statement: [statement 1]
...
statement: [statement n]

最终忠实性得分 F 的计算公式为 F = |V| / |S|,其中 |V| 代表根据 LLM 得到支持的语句数,|S| 代表语句总数。

答案相关性(Answer Relevance)

该指标衡量生成的答案与查询之间的相关性。分数越高,相关性越好。例如

在这里插入图片描述

为了估计一个答案的相关性,我们促使 LLM 根据给定的答案 a(q),生成 n 个潜在问题 qi,如下所示:

Generate a question 
### Ollama + DeepSeek-R1:32B + Docker + RAG Flow/Open WebUI 本地部署 #### 简介 DeepSeek是由阿里云推出的大型语言模型,而`DeepSeek-R1:32B`是指该系列的一个特定版本,拥有约320亿参数规模。为了方便用户使用这个强大的模型,可以通过Docker容器化技术以及RAG (Retrieval-Augmented Generation) 流程来进行本地环境下的快速部署。 #### 部署步骤概述 1. **安装Docker**:如果你还没有安装Docker的话,则需要先下载并按照官方指南完成其设置过程; - [Docker官网](https://www.docker.com/) 2. **获取镜像文件**: 使用Ollama提供的命令行工具或者直接从仓库拉取包含有预训练权重和其他必要组件的docker image ```bash docker pull ollama/deepseek-r1:32b # 假设这是正确的标签名称 ``` 3. **配置数据集与索引构建**: 对于想要增强生成结果准确性的场景来说,在启动之前还需要准备相应的文本资料库,并通过一些额外脚本创建搜索索引来支持检索增强功能(Retrieve Augment Generate)。 4. **运行Web UI服务端口映射等选项自定义** 根据个人需求调整命令参数如开放HTTP访问地址、设定内存限制等等。 ```bash docker run --name my_deepseek_webui -p 7860:7860 ollama/deepseek-webui:latest ``` 5. **打开浏览器连接至localhost指定端口号即可开始体验** 以上即是在个人电脑上搭建基于ollama平台发布的deepseek大模型加web界面交互的整体流程简介。 --- 需要注意的是实际操作过程中可能会遇到各种问题比如依赖项冲突或者是硬件资源不足等问题,建议参考具体产品的文档说明进一步排查解决办法。 --
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

静愚 AGI

你的善意终将流回自己,加油!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值