Ragas评测框架深度解析：彻底改变你的RAG系统评估方式-优快云博客

Ragas评测框架深度解析：彻底改变你的RAG系统评估方式

【免费下载链接】ragas Evaluation framework for your Retrieval Augmented Generation (RAG) pipelines 项目地址: https://gitcode.com/gh_mirrors/ra/ragas

在当今AI驱动的应用开发中，Retrieval Augmented Generation（RAG，检索增强生成）技术已成为构建智能问答系统的核心方案。然而，RAG系统的性能评估长期依赖主观判断和零散指标，导致优化方向模糊、迭代效率低下。Ragas评测框架的出现彻底改变了这一现状，它提供了一套全面、客观的评估工具链，让开发者能够精准定位RAG系统的薄弱环节，实现数据驱动的优化决策。本文将深入剖析Ragas的核心功能、技术架构和实战应用，帮助你构建更可靠的RAG应用。

Ragas框架核心价值与应用场景

Ragas作为专为RAG系统设计的评测框架，其核心价值在于解决传统评估方法的三大痛点：主观性强、指标零散、缺乏闭环反馈。通过提供标准化的评估流程和丰富的指标体系，Ragas使开发者能够量化RAG系统的各项性能维度，从检索准确性到生成质量进行全方位检测。

核心功能解析

Ragas的核心功能主要体现在四个方面：多维度指标评估、自动化测试集生成、无缝集成能力以及反馈闭环构建。这些功能共同构成了一个完整的RAG系统评估生态。

客观指标体系是Ragas的基石，它提供了两大类共20余种评估指标，覆盖从检索到生成的全流程。传统指标如BLEU、ROUGE用于文本相似度计算，而LLM-based指标如Faithfulness（忠实度）和Answer Relevance（答案相关性）则利用大型语言模型进行语义层面的深度评估。这种多层次的指标设计使开发者能够从不同角度分析系统表现。

自动化测试集生成功能解决了评估数据匮乏的难题。Ragas能够基于原始文档自动生成多样化的测试样本，包括事实性问题、推理类问题等不同类型，大大降低了人工构建测试集的成本。测试集生成模块支持自定义配置，可根据特定领域需求调整问题生成策略。

无缝集成能力使Ragas能够轻松融入现有开发流程。它与LangChain、LlamaIndex等主流RAG框架深度整合，同时提供REST API接口方便第三方系统调用。此外，Ragas还支持与LangSmith等可观测性工具联动，实现评估结果的可视化分析和历史对比。

反馈闭环构建是Ragas的高级特性，它能够将评估结果转化为具体的优化建议。通过分析指标得分分布，Ragas可以自动识别系统的薄弱环节，如检索策略不当或生成逻辑缺陷，并给出针对性的改进方案，帮助开发者实现持续迭代。

典型应用场景

Ragas的应用场景广泛覆盖RAG系统开发的全生命周期，从原型验证到生产监控均能发挥重要作用。在模型选型阶段，开发者可利用Ragas对比不同嵌入模型（如BERT、Sentence-BERT）在特定数据集上的检索性能；在系统优化阶段，通过多轮评估追踪改进效果；在生产环境中，Ragas可定期运行评估任务，及时发现性能退化问题。

特别值得一提的是，Ragas在企业级RAG应用中表现突出。例如，在客户支持知识库场景中，Ragas能够评估问答系统的回答准确性和引用正确性，确保客户获得可靠信息；在内部文档检索系统中，它可以检测敏感信息泄露风险，提升系统安全性。

图1：Ragas评估RAG系统的完整工作流程，展示了从数据准备到结果分析的全流程

技术架构与核心组件

Ragas采用模块化设计，主要由数据处理层、指标计算层、结果分析层和集成接口层四个部分组成。这种分层架构既保证了各模块的独立性，又实现了灵活的功能扩展。

数据处理层

数据处理层负责评估数据的准备与标准化，是整个框架的基础。它支持多种数据输入格式，包括JSON、CSV文件以及Hugging Face数据集，同时提供数据清洗和格式转换功能。核心组件包括：

数据集加载器：支持从本地文件系统、云存储和Hugging Face Hub加载数据，自动检测数据格式并进行验证。
样本生成器：基于原始文档自动创建测试样本，支持自定义问题类型和难度级别。
数据验证器：检查样本完整性和格式正确性，确保评估数据质量。

数据处理层的实现代码位于src/ragas/dataset.py，其中定义了Dataset类和相关工具函数，负责数据的加载、转换和验证工作。

指标计算层

指标计算层是Ragas的核心，实现了各类评估指标的计算逻辑。它采用插件式设计，每种指标作为独立模块存在，便于扩展和维护。主要组件包括：

指标注册表：管理所有可用指标，提供指标查询和实例化功能。
LLM评估引擎：处理基于大型语言模型的评估任务，包括提示工程和响应解析。
传统指标计算器：实现BLEU、ROUGE等非LLM指标的计算。

指标体系的设计遵循单一职责原则，每个指标专注于评估RAG系统的某一特定方面。例如，Context Precision（上下文精确率）衡量检索到的文档片段与问题的相关性，而Faithfulness（忠实度）则评估生成答案与源文档的一致性。这些指标的实现代码集中在src/ragas/metrics/目录下。

结果分析层

结果分析层负责评估结果的处理与可视化，帮助开发者理解系统性能并发现改进机会。核心组件包括：

结果聚合器：计算整体指标得分，支持按不同维度（如问题类型、文档类别）进行分组统计。
可视化引擎：生成雷达图、柱状图等多种图表，直观展示各项指标表现。
优化建议生成器：基于评估结果自动生成系统改进建议。

分析结果可以导出为CSV、JSON等格式，便于进一步处理。此外，Ragas还提供交互式分析界面，支持开发者深入探索样本级别的评估数据，查看具体案例的得分情况和评估依据。

集成接口层

集成接口层提供多样化的接入方式，方便不同场景下的使用。主要包括：

Python API：提供简洁易用的编程接口，支持在代码中直接调用评估功能。
命令行工具：允许通过终端命令执行评估任务，适合集成到CI/CD流程。
Web服务：内置轻量级HTTP服务器，支持通过REST API远程调用评估功能。
第三方集成适配器：实现与主流RAG框架和可观测性工具的无缝对接。

集成接口层的代码位于src/ragas/cli.py（命令行工具）和src/ragas/sdk.py（API接口），确保了接口的稳定性和易用性。

核心指标体系详解

Ragas提供了全面的指标体系，覆盖RAG系统的各个关键环节。这些指标可分为检索质量指标、生成质量指标、整体性能指标三大类，形成了完整的评估维度。

检索质量指标

检索质量指标评估RAG系统中文档检索模块的性能，直接影响后续生成结果的质量。Ragas提供了多种检索相关指标，帮助开发者优化检索策略。

Context Precision（上下文精确率） 衡量检索到的文档片段与问题的相关性，计算公式为相关片段数与总检索片段数的比值。高精确率意味着系统能够过滤掉不相关的信息，减少噪声干扰。实现代码参见src/ragas/metrics/context_precision.py。

Context Recall（上下文召回率） 评估系统是否能检索到所有与问题相关的文档片段，计算公式为检索到的相关片段数与所有相关片段数的比值。高召回率确保系统不会遗漏重要信息，特别是对于需要多源信息综合的复杂问题。

Context Entities Recall（上下文实体召回率） 是针对实体层面的召回率指标，专注于评估系统对关键实体信息的检索能力。在知识密集型应用中，实体召回率往往比整体召回率更能反映检索质量。

下图展示了不同检索策略下各项指标的表现对比，从中可以看出混合检索策略（关键词+语义）在精确率和召回率之间取得了较好的平衡：

图2：不同检索策略的Context Precision和Context Recall对比，混合策略表现最优

生成质量指标

生成质量指标评估RAG系统生成答案的质量，关注答案的准确性、相关性和自然度等方面。这些指标大多基于LLM实现，能够捕捉语义层面的细微差异。

Faithfulness（忠实度） 是核心生成指标之一，衡量生成答案与源文档的一致性，检测是否存在幻觉（Hallucination）现象。Ragas采用多步验证法评估忠实度：首先识别答案中的事实性陈述，然后检查每个陈述是否能在检索到的文档中找到支持证据。该指标的实现采用了专门设计的提示模板，确保评估结果的可靠性。

Answer Relevance（答案相关性） 评估生成答案与问题的匹配程度，即答案是否准确回应了用户的查询意图。高相关性意味着答案既全面覆盖问题要点，又不会包含无关信息。

Semantic Similarity（语义相似度） 通过计算生成答案与理想答案（人工标注或高质量参考回答）的语义距离来评估生成质量。与传统的字符串相似度指标（如BLEU）相比，语义相似度更能反映回答内容的一致性。

Aspect Critic（方面评价） 是一类灵活的生成指标，允许自定义评估维度。开发者可以定义特定的评估标准（如回答简洁性、术语准确性），Ragas将根据这些标准对生成答案进行评分。这种定制化能力使Ragas能够适应不同领域的特殊需求。

整体性能指标

整体性能指标从用户体验角度评估RAG系统的综合表现，通常是端到端的评估。

Factual Correctness（事实正确性） 综合评估答案的准确性，考虑检索和生成两个环节的影响。该指标不仅关注答案是否与源文档一致，还评估文档本身的可靠性和相关性。

User Satisfaction（用户满意度） 是最直接的整体指标，通过模拟用户对系统回答的评分来衡量。Ragas采用LLM模拟用户评价过程，基于预设的评分标准（如回答质量、响应速度）给出综合评分。

Latency（延迟） 衡量系统的响应速度，包括检索延迟和生成延迟两个部分。低延迟对于实时交互场景至关重要，Ragas会记录每个环节的耗时，帮助开发者定位性能瓶颈。

这些指标共同构成了全面的评估体系，使开发者能够从多个维度了解RAG系统的表现。在实际应用中，建议根据具体场景选择合适的指标组合，避免指标过多导致决策困难。

快速入门指南

本节将通过一个完整的示例，展示如何使用Ragas评估RAG系统。我们将构建一个简单的文档问答系统，并使用Ragas对其进行全面评估，最后根据评估结果进行系统优化。

环境准备与安装

Ragas的安装过程简单便捷，支持通过PyPI或源码编译两种方式安装。推荐使用虚拟环境隔离依赖，避免版本冲突。

首先，创建并激活虚拟环境：

python -m venv ragas-env
source ragas-env/bin/activate  # Linux/Mac
ragas-env\Scripts\activate     # Windows

然后通过PyPI安装Ragas：

pip install ragas

如需安装最新开发版本，可从GitHub仓库直接安装：

pip install git+https://gitcode.com/gh_mirrors/ra/ragas.git

安装完成后，验证安装是否成功：

ragas --version

Ragas依赖一些外部服务（如OpenAI API）进行LLM-based评估，因此需要设置相应的环境变量：

export OPENAI_API_KEY="your_api_key_here"

对于国内用户，Ragas支持配置代理以提高访问速度：

export HTTP_PROXY="http://your_proxy_server:port"
export HTTPS_PROXY="https://your_proxy_server:port"

基础评估流程

Ragas的评估流程通常包括数据准备、指标选择、评估执行和结果分析四个步骤。下面我们通过一个具体示例来演示这一流程。

首先，准备评估数据。我们需要创建包含问题、检索到的上下文和生成答案的测试样本。这里使用Ragas提供的SingleTurnSample类来组织数据：

from ragas import SingleTurnSample

test_samples = [
    SingleTurnSample(
        user_input="什么是RAG技术？",
        response="RAG（检索增强生成）是一种结合检索系统和生成模型的AI技术，能够让语言模型基于外部知识库生成更准确的回答。",
        contexts=[
            "检索增强生成（RAG）是一种人工智能框架，用于增强大型语言模型（LLM）的能力，使其能够利用外部知识库来生成更准确、更相关的响应。",
            "RAG系统通常由检索器和生成器两部分组成，检索器负责从知识库中查找相关文档，生成器则基于这些文档生成最终回答。"
        ]
    ),
    # 更多测试样本...
]

接下来，选择评估指标。对于基础的RAG评估，推荐使用以下指标组合：

from ragas.metrics import (
    ContextPrecision,
    Faithfulness,
    AnswerRelevance,
    FactualCorrectness
)

metrics = [
    ContextPrecision(),
    Faithfulness(),
    AnswerRelevance(),
    FactualCorrectness()
]

然后，执行评估。Ragas提供了简洁的评估接口：

from ragas import evaluate

results = evaluate(
    samples=test_samples,
    metrics=metrics
)

评估完成后，查看结果：

print(results)
# 输出示例：
# {
#     'context_precision': 0.85,
#     'faithfulness': 0.92,
#     'answer_relevance': 0.88,
#     'factual_correctness': 0.89
# }

最后，分析评估结果。Ragas提供可视化工具帮助理解各项指标表现：

results.visualize()

这将生成一个雷达图，直观展示各项指标的得分情况。通过分析图表，开发者可以快速识别系统的优势和不足。

高级评估策略

对于更复杂的评估需求，Ragas提供了多种高级功能，如批量评估、自定义指标和持续评估等。

批量评估适用于大规模测试集场景。Ragas支持从文件加载测试数据，支持CSV、JSONL等格式：

from ragas.dataset import EvaluationDataset

# 从CSV文件加载数据集
dataset = EvaluationDataset.from_csv("test_data.csv")

# 执行批量评估
results = evaluate(dataset, metrics=metrics)

自定义指标允许开发者根据特定需求定义新的评估维度。例如，评估法律领域RAG系统时，可能需要专门的"法律术语准确性"指标：

from ragas.metrics import Metric, llm_metric

@llm_metric(name="legal_terminology_accuracy")
def legal_terminology_accuracy(sample: SingleTurnSample) -> float:
    """评估法律术语使用的准确性"""
    prompt = f"""
    评估以下法律问答中术语使用的准确性，分数范围0-1：
    问题: {sample.user_input}
    回答: {sample.response}
    """
    # 调用LLM进行评估
    score = llm.generate_score(prompt)
    return score

持续评估功能可将Ragas集成到CI/CD流程中，实现每次代码提交后的自动评估：

# .github/workflows/ragas-eval.yml
name: RAG Evaluation
on: [push]
jobs:
  evaluate:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v3
      - name: Set up Python
        uses: actions/setup-python@v4
        with:
          python-version: '3.10'
      - name: Install dependencies
        run: pip install -r requirements.txt
      - name: Run Ragas evaluation
        run: python eval_script.py
      - name: Upload results
        uses: actions/upload-artifact@v3
        with:
          name: evaluation-results
          path: results/

这种持续评估机制能够及时发现代码变更对系统性能的影响，防止性能退化。

评估结果分析与优化

评估的最终目的是改进系统性能，Ragas提供了强大的分析工具帮助开发者将评估结果转化为具体的优化行动。

样本级分析允许开发者深入查看每个测试样本的评估详情：

# 获取得分最低的样本
worst_samples = results.get_worst_samples(metric="faithfulness", top_n=5)

# 查看样本详情
for sample in worst_samples:
    print(f"问题: {sample.user_input}")
    print(f"回答: {sample.response}")
    print(f"忠实度得分: {sample.scores['faithfulness']}")
    print(f"评估理由: {sample.feedback['faithfulness']}")

通过分析这些低得分样本，开发者可以发现系统的常见错误模式，如特定类型问题的处理能力不足。

优化建议生成功能能够基于评估结果自动提供改进方向：

from ragas.optimization import generate_recommendations

recommendations = generate_recommendations(results)
print(recommendations)

建议可能包括调整检索参数、优化提示模板、更换嵌入模型等具体措施。Ragas甚至可以生成代码示例，指导开发者实施这些改进。

A/B测试功能支持对比不同系统配置的性能差异：

from ragas.experiment import ABTest

# 定义两种不同的系统配置
config_a = {"retriever": "bm25", "generator": "gpt-3.5-turbo"}
config_b = {"retriever": "faiss", "generator": "gpt-4"}

# 执行A/B测试
test = ABTest(dataset, config_a, config_b, metrics)
test_results = test.run()

# 分析测试结果
test_results.visualize_comparison()

这种科学的对比方法能够帮助开发者做出有理有据的技术选型决策。

实际案例分析

本节通过两个真实案例展示Ragas在不同场景下的应用，包括企业知识库系统和客户支持聊天机器人，展示如何利用Ragas解决实际问题并提升系统性能。

企业知识库RAG系统优化

某大型制造企业构建了基于RAG的内部知识库系统，帮助员工快速获取产品信息和技术文档。然而，用户反馈系统经常提供不准确或不相关的回答。通过Ragas评估，团队发现了关键问题并成功优化了系统。

评估设置：

测试集：200个真实用户查询，涵盖产品规格、故障排除等类型
评估指标：Context Precision、Faithfulness、Answer Relevance、Factual Correctness
基准系统：使用BM25检索和GPT-3.5生成的RAG系统

初始评估结果：

Context Precision: 0.68（检索准确性低）
Faithfulness: 0.72（存在较多幻觉）
Answer Relevance: 0.75（回答针对性不足）
Factual Correctness: 0.70（整体准确率有待提高）

图3：企业知识库系统初始评估的各项指标得分，检索相关指标表现较差

问题诊断：通过Ragas的样本级分析，发现主要问题包括：

产品型号和技术参数类查询的检索准确率低（Context Precision仅0.52）
生成回答时过度概括，导致技术细节丢失
部分文档存在重复内容，导致检索歧义

优化措施：

引入语义检索增强：将BM25检索替换为"BM25+Sentence-BERT"混合检索策略
优化提示模板：增加技术细节保留要求，限制回答长度
文档预处理：去重并添加结构化标签，提升检索精度

优化后评估结果：

Context Precision: 0.89（+0.21）
Faithfulness: 0.88（+0.16）
Answer Relevance: 0.91（+0.16）
Factual Correctness: 0.87（+0.17）

业务成果：系统优化后，员工查找信息的平均时间减少62%，用户满意度提升40%，技术支持工单量下降28%。

客户支持聊天机器人改进

某电商平台部署了基于RAG的客户支持聊天机器人，处理订单查询、退换货等常见问题。为提升解决率，团队使用Ragas进行全面评估并针对性改进。

评估设置：

测试集：300个历史支持对话，包含成功和失败案例
评估指标：Answer Relevance、Factual Correctness、User Satisfaction、Latency
基准系统：基于检索的问答系统，无状态对话处理

初始评估结果：

Answer Relevance: 0.76
Factual Correctness: 0.81
User Satisfaction: 0.68（低分主要源于多轮对话能力不足）
Latency: 1.8秒（响应较慢）

问题诊断：Ragas分析显示：

多轮对话场景中，系统无法维持上下文理解
订单状态查询的准确率低（Factual Correctness 0.65）
响应延迟较高，影响用户体验

优化措施：

引入对话状态跟踪：使用LangChain的对话历史管理功能
优化订单数据检索：专门的订单信息检索模块，直接查询数据库
模型优化：使用量化版LLM，将生成延迟从1.2秒降至0.5秒

优化后评估结果：

Answer Relevance: 0.92（+0.16）
Factual Correctness: 0.93（+0.12）
User Satisfaction: 0.89（+0.21）
Latency: 0.7秒（-1.1秒）

业务成果：聊天机器人的问题解决率从65%提升至89%，平均对话轮次从5.2减少到3.1，客户满意度提升31%。

最佳实践与进阶技巧

指标选择策略

选择合适的评估指标是有效使用Ragas的关键。不同类型的RAG应用需要关注不同的性能维度，错误的指标选择可能导致优化方向偏差。

基于应用类型的指标选择：

事实性问答系统（如企业知识库）：优先关注Context Precision、Faithfulness、Factual Correctness
创意生成系统（如营销文案生成）：重点评估Answer Relevance、Semantic Similarity、Aspect Critic（创造性维度）
客服对话系统：注重User Satisfaction、Factual Correctness、Latency

指标组合原则：

覆盖检索和生成两个环节，避免片面优化
每个环节选择1-2个核心指标，避免指标过多导致注意力分散
至少包含一个端到端指标（如User Satisfaction）和若干组件指标

指标阈值设定：根据应用场景设定合理的指标目标值，例如：

企业内部系统：关键指标≥0.85
面向客户的系统：关键指标≥0.90
医疗、金融等高风险领域：关键指标≥0.95

测试集构建指南

高质量的测试集是准确评估的基础，Ragas提供了多种工具帮助构建和优化测试集。

测试集规模建议：

开发阶段：50-100个样本，覆盖主要使用场景
评估阶段：200-500个样本，包含边缘情况
持续监控：100-200个样本，定期更新

样本多样性保障：

问题类型多样：事实性、推理类、比较类、假设类等
难度分布合理：简单、中等、复杂问题比例约4:4:2
覆盖不同主题：确保各业务领域都有代表性样本

利用Ragas自动生成测试集： Ragas提供TestsetGenerator工具，可基于原始文档自动创建测试样本：

from ragas.testset import TestsetGenerator
from ragas.testset.embeddings import OpenAIEmbeddings
from ragas.testset.synthesizers import QuestionAnswerSynthesizer

# 初始化生成器
generator = TestsetGenerator(
    embeddings=OpenAIEmbeddings(),
    question_synthesizer=QuestionAnswerSynthesizer.from_default()
)

# 生成测试集
testset = generator.generate_with_langchain_docs(docs, test_size=100)

# 保存测试集
testset.to_pandas().to_csv("auto_generated_testset.csv", index=False)

自动生成的测试集可与人工构建的样本结合使用，平衡效率和质量。

性能优化建议

Ragas不仅能评估系统，还能提供具体的性能优化建议，帮助开发者有针对性地改进RAG系统。

检索优化技巧：

混合检索策略：结合关键词检索（如BM25）和语义检索（如Sentence-BERT）的优势
查询扩展：对模糊或简短查询进行扩展，添加同义词和相关术语
分块优化：根据文档结构动态调整文本块大小，平衡上下文完整性和相关性
元数据过滤：利用文档元数据（如日期、类别）缩小检索范围

生成优化技巧：

提示工程：
- 明确回答格式和长度要求
- 添加源文档引用要求
- 包含示例回答作为引导
模型选择：根据任务复杂度选择合适能力的LLM，避免过度使用高级模型
温度调优：事实性任务使用低温度（0.1-0.3）确保准确性，创造性任务可提高温度

系统架构优化：

缓存机制：缓存频繁查询的检索结果和生成答案
异步处理：非关键路径任务异步执行，减少用户等待时间
分级检索：先使用轻量级模型快速过滤，再深度检索少量候选文档

Ragas的优化建议生成器能够根据评估结果提供个性化的改进方案，指导开发者优先解决影响最大的问题。

总结与未来展望

Ragas评测框架通过提供全面、客观的评估工具，彻底改变了RAG系统的开发和优化方式。它不仅解决了传统评估方法的主观性和零散性问题，还构建了从评估到优化的完整闭环，使RAG系统的迭代改进更加科学和高效。

主要优势总结

Ragas的核心优势体现在以下几个方面：

全面的指标体系：覆盖从检索到生成的全流程评估，既有细粒度的组件指标，也有端到端的整体指标，满足不同评估需求。

客观量化评估：通过LLM-based评估方法，将主观质量评价转化为可量化的指标得分，减少人为判断偏差。

自动化测试集生成：大幅降低测试数据构建成本，支持基于真实数据动态生成多样化测试样本。

深度分析能力：不仅提供指标得分，还能深入分析问题根源，提供具体可行的优化建议。

广泛的集成性：与主流RAG框架、LLM服务和可观测性工具无缝对接，易于融入现有开发流程。

这些优势使Ragas成为RAG系统开发的必备工具，帮助开发者构建更可靠、更高质量的AI应用。

未来发展方向

Ragas团队持续推进框架的迭代优化，未来将重点发展以下方向：

多模态RAG评估：扩展评估能力，支持图像、表格等多模态内容的RAG系统评估。

实时评估监控：提供更强大的生产环境监控能力，支持实时性能分析和异常检测。

领域专用指标：针对医疗、法律等专业领域开发定制化评估指标，满足特殊行业需求。

评估模型优化：研发更高效的评估模型，降低LLM-based评估的成本和延迟。

社区生态建设：建立指标和评估方案的共享社区，促进最佳实践的传播和应用。

随着RAG技术的不断发展，Ragas将持续进化，为开发者提供更强大、更易用的评估工具，推动RAG应用质量的整体提升。

结语

在RAG技术快速发展的今天，系统评估已成为决定应用成败的关键环节。Ragas评测框架通过科学的指标设计、自动化的评估流程和深度的分析能力，为RAG系统开发提供了全方位的质量保障。无论是初创公司的原型产品，还是企业级的大规模应用，Ragas都能提供有价值的评估 insights，帮助开发者构建更可靠、更智能的AI系统。

通过本文的介绍，相信你已经对Ragas有了深入了解。现在就开始使用Ragas评估你的RAG系统，体验数据驱动的优化之旅吧！更多资源和最新动态，请关注Ragas官方文档docs/和GitHub仓库。

【免费下载链接】ragas Evaluation framework for your Retrieval Augmented Generation (RAG) pipelines 项目地址: https://gitcode.com/gh_mirrors/ra/ragas

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考