问答系统评估:文本问答与知识库问答
1. 文本问答(TextQA)评估
1.1 数据集
在文本问答或答案选择任务的数据集的一般结构中,问题与一组候选答案相关联,每个候选答案被标记为正确或错误。可用的数据集可分为封闭域和开放域数据集。封闭域数据集包含特定领域的问题,而开放域数据集包含不同主题的问题,对问题主题没有限制。以下是一些著名的答案选择数据集:
- TREC - QA :从TREC 8 - 13轨道收集。TREC 8 - 12轨道的问题用于创建训练集,TREC 13用于创建验证集和测试集。候选答案从问题的相应文档池中提取。验证集和测试集的问题以及训练集的前100个问题由人工判断,训练集的其他问题通过正则表达式自动判断。TREC包括TRAIN和TRAIN - ALL两个训练集,前者仅包含人工判断的训练集问题,后者包含所有训练集问题。在TREC - QA的清理版本中,没有正确或错误答案的问题会被从数据集中移除。详细统计信息如下表所示:
| 数据集 | # Questions | # QA pairs | % correct | #Answers/Q | Judgement |
| — | — | — | — | — | — |
| Train - all | 1229 | 53,417 | 12.00% | 43.46 | Automatic |
| Train | 94 | 4718 | 7.40% | 50.19 | Manual |
| Validation (clean) | 82 (65) | 1148 (1117) | 19.30% | 14.00 | Manual |
| T
超级会员免费看
订阅专栏 解锁全文
1348

被折叠的 条评论
为什么被折叠?



