自定义RAG评估数据流

最新推荐文章于 2025-06-11 12:06:04 发布

原创最新推荐文章于 2025-06-11 12:06:04 发布

· 183 阅读

3 ·

版权

文章标签：

#人工智能 #机器学习 #深度学习

这是前置工作

向量数据构建完成

开始进行处理

因为我们要对上面构建的数据集添加一些内容，比如检索出来的数据，评分指标等，所以我们把他封装在一个自定义item类中进行操作，然后把item放进自己构建的dataset类中

ef get_dataset(config):
    """从配置加载数据集。"""

    # 从配置中获取数据集的路径，这个是我们数据集的路径
    dataset_path = config['dataset_path']
    # 获取要加载的数据集的分割名称，如'train'、'test'等
    all_split = config['split']

    # 创建一个字典，用于存储每个分割的数据集对象
    split_dict = {split: None for split in all_split}

    # 遍历每个分割
    for split in all_split:
        # 构建该分割对应的文件路径，这个步骤就是组成完整的文件路径
        split_path = os.path.join(dataset_path, f'{split}.jsonl')
        # 检查文件是否存在
        if not os.path.exists(split_path):
            print(f"{split} file not exists!")  # 如果文件不存在，打印提示信息
            continue
        # 如果分割是'test', 'val', 'dev'之一，初始化Dataset类的实例
        if split in ['test', 'val', 'dev']:
            split_dict[split] = Dataset(config,
                                        split_path,
                                        sample_num=config['test_sample_num'],
                                        random_sample=config['random_sample'])
        else:
            # 对于其它分割，直接初始化Dataset类的实例
            split_dict[split] = Dataset(config, split_path)

    # 返回包含所有分割数据集的字典
    return split_dict

加载数据