RAG测试数据集资源

一、通用问答基准数据集
  1. HotpotQA

    • 特点:包含11万+多跳问答对
    • 最佳用途:测试复杂推理能力
    • 数据示例:
      {
             
             
        "question": "Were Scott Derrickson and Ed Wood of the same nationality?",
        "answer": "Yes, both are American"
      }
      
  2. MS MARCO

    • 特点:百万级真实用户查询+Bing搜索结果
    • 下载方式:
      wget https://msmarco.blob.core.windows.net/msmarcoranking/collectionandqueries.tar.gz
      
  3. Natural Questions

    • 亮点:Google搜索真实问题+人工标注答案
    • 特别适合:开放域问答系统测试
二、领域专用数据集
  1. COVID-QA

    • 医疗领域:新冠相关问答对
    • 包含:2,000+医学专家验证的QA对
  2. LegalBench

    • 法律领域:8种法律任务测试集
    • 文件类型:
      case_law/
      statutory_interpretation/
      contract_analysis/
      
  3. FinQA

    • 金融领域:表格+文本混合问答
    • 典型问题:

      “根据2023年Q2财报,公司净利润增长率是多少?”

三、压力测试数据集
  1. DBPedia-Entity

    • 规模:400万+实体查询
    • 测试场景:
      • 大规模知识库检索效率
      • 实体链接准确性
  2. TriviaQA

    • 特点:65万+琐事问题
    • 挑战性:需要广泛常识推理
四、多语言测试集
  1. XQuAD

    • 覆盖:11种语言(含中文)
    • 使用建议:
      from datasets import load_dataset
      dataset = load_dataset("xquad", "xquad.zh")
      
  2. MLQA

    • 亮点:平行语料跨语言评估
    • 语言对:EN-ES/DE/AR等7种
五、对抗性测试集
  1. AdversarialQA

    • 设计目的:专门挑战QA系统弱点
    • 三种变体:
      • DBERT(基于BERT的对抗样本)
      • DRO(动态对抗优化)
      • BiDAF(上下文误导)
  2. StrategyQA

    • 特点:需要隐含推理的问题
    • 示例:

      “用微波炉加热金属餐具会导致火灾吗?”
      (需推理:金属反射微波→火花→火灾风险)

六、企业级测试工具包
  1. RAGAS

    • 专为RAG设计的评估库
    • 关键指标:
      from ragas import evaluate
      metrics = [
          "faithfulness",  # 事实忠实度
          "answer_relevance",  # 答案相关性
          "context_recall"  # 上下文召回
      ]
      
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小赖同学啊

感谢上帝的投喂

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值