论文分享|Arxiv2024‘人大|FlashRAG—快速开发和公平评估RAG算法

构建RAG系统的一个比较难的问题是,如何快速且公平对比各种RAG方法?本文介绍一个最近比较火的项目FlashRAG,讲解如何快速实现并公平评估自己的RAG算法。

论文题目:FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research

来源:中国人民大学

开源地址:https://github.com/RUC-NLPIR/FlashRAG

概述

FlashRAG 是一个 Python 工具包,用于复现和开发检索增强生成(RAG)算法。此工具包包括 32 个经过预处理的基准 RAG 数据集和 12 种最先进的 RAG 算法。以下是架构图:

img

最底层为组件层,包含RAG中的各种常用组件,包含检索器,重排器,压缩器,生成器,打分器等。

第二层为流程层,包含顺序,分支,迭代,循环,条件等流程,这部分主要是合理使用各种组件来实现具体的算法

第三层为数据层,包含用于检索的语料数据和用于评估的各种任务数据

使用教程

环境安装

执行如下命令,需要python>=3.9。注意,faiss-cpu需要用conda重新安装从而适配特定设备

git clone https://github.com/RUC-NLPIR/FlashRAG.git
cd FlashRAG
pip install -e . 
conda install -c pytorch faiss-cpu==1.8.0

数据准备

我们使用如下的python脚本,利用hf镜像快速下载 FlashRAG_datasets 数据集到本地的 FlashRAG_datasets 目录。

import os
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
from pathlib import Path
import fire

def download(
        repo: str = "RUC-NLPIR/FlashRAG_datasets",
        output: str = "FlashRAG_datasets"
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值