构建大规模中文网页测试集的探索与实践
1. 引言
在信息检索(IR)系统的评估中,测试集被视为评估其有效性的标准数据集。大规模测试集是加速IR研究的基础,因为在小规模测试集中表现良好的IR系统,在大规模测试数据下未必能有同样出色的表现。只有在大规模测试集评估下能给出满意结果的IR系统,才被认为是可行的,这也是验证和改进IR技术与系统的关键。
由于网络信息的快速增长和主题的多样性,将网络作为测试集的超集来构建大规模测试集是一种流行的方法,这就是所谓的网页测试集。目前已有面向英语和日语的网页测试集,但在相关工作开展之前,还没有同等规模的中文网页测试集。为了推动中文IR技术的发展,构建了数据量达100GB的中文网页测试集CWT100g,并介绍了构建此类大规模测试集的方法,该方法不仅适用于中文,也有望为其他语言测试集的构建提供参考。
2. 相关术语
自20世纪50年代末的克兰菲尔德实验以来,人们普遍认为IR测试集应包含三个组件:
- 文档集 :是IR系统进行文本分析的文档集合,是IR系统直接处理的对象,是其超集的缩影。
- 查询集 :是向IR系统询问结果的问题集合。测试集的查询由评估人员创建,他们也负责评估相关性判断集。由于获取相关性判断较为困难,查询数量通常在几十到几百个之间。
- 相关性判断集 :是查询的标准答案集合,用于比较IR系统在给定查询下的返回结果。IR系统的返回结果越接近相关性判断集,其质量就越高。为保证权威性,相关性判断通常根据文档集手动或半自动获取。
此外,主机名是特定网站的标识,通常
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



