自定义RAG评估数据流

 这是前置工作

向量数据构建完成 

开始进行处理

因为我们要对上面构建的数据集添加一些内容,比如检索出来的数据,评分指标等,所以我们把他封装在一个自定义item类中进行操作,然后把item放进自己构建的dataset类中

ef get_dataset(config):
    """从配置加载数据集。"""

    # 从配置中获取数据集的路径,这个是我们数据集的路径
    dataset_path = config['dataset_path']
    # 获取要加载的数据集的分割名称,如'train'、'test'等
    all_split = config['split']

    # 创建一个字典,用于存储每个分割的数据集对象
    split_dict = {split: None for split in all_split}

    # 遍历每个分割
    for split in all_split:
        # 构建该分割对应的文件路径,这个步骤就是组成完整的文件路径
        split_path = os.path.join(dataset_path, f'{split}.jsonl')
        # 检查文件是否存在
        if not os.path.exists(split_path):
            print(f"{split} file not exists!")  # 如果文件不存在,打印提示信息
            continue
        # 如果分割是'test', 'val', 'dev'之一,初始化Dataset类的实例
        if split in ['test', 'val', 'dev']:
            split_dict[split] = Dataset(config,
                                        split_path,
                                        sample_num=config['test_sample_num'],
                                        random_sample=config['random_sample'])
        else:
            # 对于其它分割,直接初始化Dataset类的实例
            split_dict[split] = Dataset(config, split_path)

    # 返回包含所有分割数据集的字典
    return split_dict

 加载数据

如果没有传递data,那么根据路径进行加载,一行一样的进行读取 ,最后data列表中是一个个的item对象

 此时我们已经拿到所有的数据

all_split是个字典,通过key可以拿到dataset对象,并且在方法上加了@property注解,可以通过书想的方式调用方法 

 然后构建提示模版,根据传递的模型类型判断是生成chat类还是instruct类的提示模版

 然后运行pipeline

 pipeline里面获取检索器,生成器

 获取生成器实例

 

获取检索器

检索器分为两种,这里我们使用的是密集的

 encoder 是用来将query转换为向量的

 

 然后执行run方法

预测完之后,把预测完之后的值放入dataset中 

评估

评估就是拿到预测的值和金标准进行比较

评估的基类

这是子类方法写的一个评估的实例,首先肯定是拿到 生成的答案和金标准答案,然后通过自己写的计算方式进行评估

 f1计算得分的细节,把单词切分为token然后计算交集,或者进行正则

 最终生成的数据

 

re-ranking 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值