4、问答系统评估：文本问答与知识库问答

最新推荐文章于 2025-09-12 10:17:37 发布

nft7creator

最新推荐文章于 2025-09-12 10:17:37 发布

阅读量32

点赞数

CC 4.0 BY-SA版权

分类专栏：文本与知识库问答系统文章标签：问答系统文本问答知识库问答

本文链接：https://blog.youkuaiyun.com/nft7creator/article/details/151314487

文本与知识库问答系统专栏收录该内容

17 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

问答系统评估：文本问答与知识库问答

1. 文本问答（TextQA）评估

1.1 数据集

在文本问答或答案选择任务的数据集的一般结构中，问题与一组候选答案相关联，每个候选答案被标记为正确或错误。可用的数据集可分为封闭域和开放域数据集。封闭域数据集包含特定领域的问题，而开放域数据集包含不同主题的问题，对问题主题没有限制。以下是一些著名的答案选择数据集：
- TREC - QA ：从TREC 8 - 13轨道收集。TREC 8 - 12轨道的问题用于创建训练集，TREC 13用于创建验证集和测试集。候选答案从问题的相应文档池中提取。验证集和测试集的问题以及训练集的前100个问题由人工判断，训练集的其他问题通过正则表达式自动判断。TREC包括TRAIN和TRAIN - ALL两个训练集，前者仅包含人工判断的训练集问题，后者包含所有训练集问题。在TREC - QA的清理版本中，没有正确或错误答案的问题会被从数据集中移除。详细统计信息如下表所示：
| 数据集 | # Questions | # QA pairs | % correct | #Answers/Q | Judgement |
| — | — | — | — | — | — |
| Train - all | 1229 | 53,417 | 12.00% | 43.46 | Automatic |
| Train | 94 | 4718 | 7.40% | 50.19 | Manual |
| Validation (clean) | 82 (65) | 1148 (1117) | 19.30% | 14.00 | Manual |
| T

会员秒杀 ¥9.9 重磅福利

超级会员免费看