VectorInstitute/fed-rag项目中WebQuestions数据集预处理模块的实现

武彬锋Sacha

于 2025-06-14 09:03:25 发布

阅读量239

点赞数 5

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_07526/article/details/148648016

VectorInstitute/fed-rag项目中WebQuestions数据集预处理模块的实现

fed-rag A framework for federated fine-tuning of retrieval-augmented generation (RAG) systems. 项目地址: https://gitcode.com/gh_mirrors/fe/fed-rag

在联邦学习与检索增强生成（RAG）结合的VectorInstitute/fed-rag项目中，数据处理是构建高质量模型的关键环节。本文深入解析项目中WebQuestions问答数据集的预处理模块实现过程，展示如何通过标准化接口将原始数据转化为模型可用的训练格式。

项目背景与需求

fed-rag项目需要处理多种问答数据集以支持模型训练。WebQuestions作为经典的开放域问答数据集，包含通过Google Suggest API收集的真实用户问题及其答案。项目要求开发者实现一个与现有架构兼容的数据预处理模块，具体要求包括：

创建web_questions.py文件于指定目录
实现WebQuestionsDataPrepper类
确保模块可独立执行测试

技术实现方案

参考项目中已有的PubmedQADataPrepper和CommonsenseQADataPrepper实现，WebQuestions预处理模块采用以下设计：

类结构设计

class WebQuestionsDataPrepper(BaseDatasetPrepper):
    def __init__(self, output_dir: str):
        super().__init__(
            dataset_name="web_questions",
            output_dir=output_dir,
            question_key="question",
            answer_key="answer"
        )
    
    def load_raw_data(self) -> Dataset:
        # 实现原始数据加载逻辑
        pass
    
    def preprocess_data(self, raw_data: Dataset) -> Dataset:
        # 实现数据清洗和格式转换
        pass