101 使用LlamaIndex评估RAG系统的理想分块大小

最新推荐文章于 2025-09-05 00:20:51 发布

原创

最新推荐文章于 2025-09-05 00:20:51 发布 · 751 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#LLM #RAG

使用LlamaIndex评估RAG系统的理想分块大小

引言

检索增强生成（RAG）引入了一种创新方法，将搜索系统的强大检索能力与大型语言模型（LLM）相结合。在实现RAG系统时，一个关键参数是chunk_size，它决定了系统的效率和性能。如何确定最佳的分块大小以实现无缝检索？这就是LlamaIndex响应评估模块发挥作用的地方。在本篇博客中，我们将指导您使用LlamaIndex的响应评估模块来确定最佳分块大小。如果您不熟悉响应评估模块，建议在继续之前查看其文档。

为什么分块大小很重要

选择合适的chunk_size是一个关键决策，它可以通过以下几个方面影响RAG系统的效率和准确性：

响应生成时间

随着chunk_size的增加，进入LLM以生成答案的信息量也会增加。虽然这可以确保更全面的内容，但也可能减慢系统速度。确保增加的深度不会牺牲系统的响应速度至关重要。

本质上，确定最佳chunk_size是关于平衡：捕捉所有必要信息而不牺牲速度。通过使用各种大小进行彻底测试，找到适合特定用例和数据集的配置至关重要。

设置

在开始实验之前，我们需要确保所有必需的模块都已导入：

import nest_asyncio
nest_asyncio.apply()

from llama_index import (
    SimpleDirectoryReader,
    VectorStoreIndex,
    ServiceContext,
)
from llama_index.evaluation import (
    DatasetGenerator,
    FaithfulnessEvaluator,
    RelevancyEvaluator
)
from llama_index.llms import OpenAI

import openai
import time
openai.api_key = 'OPENAI-API-KEY'

下载数据

我们将使用Uber 2021年的10K SEC文件进行此实验。

!mkdir -p 'data/10k/'
!wget 'https://raw.githubusercontent.com/jerryjliu/llama_index/main/docs/examples/data/10k/uber_2021.pdf' -O 'data/10k/uber_2021.pdf'

加载数据

让我们加载文档。

documents = SimpleDirectoryReader("./data/10k/").load_data()

问题生成

为了选择合适的chunk_size，我们将计算不同chunk_size的平均响应时间、忠实度和相关性指标。DatasetGenerator将帮助我们从文档中生成问题。

data_generator = DatasetGenerator.from_documents(documents)
eval_questions = data_generator.generate_questions_from_nodes()

设置评估器

我们将使用GPT-4模型作为实验中生成响应的评估基础。两个评估器，FaithfulnessEvaluator和RelevancyEvaluator，使用service_context进行初始化。

gpt4 = OpenAI(temperature=0, model="gpt-4")

最低0.47元/天解锁文章