大规模中文网页测试集构建与主题跟踪技术解析
大规模中文网页测试集 CWT100g 的构建
在构建大规模中文网页测试集 CWT100g 时,文档选择策略是关键的一环。确定采样站点 D7 后,需要依据这些站点进行页面爬取。并非所有站点的页面都会被爬取,只保留 MIME 类型为 “plain/html” 或 “plain/text” 的页面。若页面虽使用非中文语言,但属于中文范围,也会被保留。同时,会排除 DOC 和 PDF 格式的文件,并且去掉带有问号的 URL 对应的动态页面,因为判断动态页面的有效性较为困难。
爬取过程中有两个主要问题,分别是原始网页的存储格式和页面爬取策略。存储格式要求占用磁盘空间少、具备容错能力且使用方便,CWT100g 采用了 Tianwang 存储格式,满足这些要求。页面爬取策略方面,使用了改进版的 TSE 作为爬取系统,其策略类似于广度优先爬取方法。
具体的爬取步骤如下:
1. 分组任务划分 :将 D7 划分为 205 个组,每组 100 个站点(最后一组站点数可能少于 100),每个组用唯一文件名表示一个细粒度的子任务,将具有相同中间字母的子任务整合为一个粗粒度的任务,以任务为基本单位分配工作量,根据中文范围内站点页面分布的 Zipf 定律,合理分配任务使工作量平衡。
2. 子任务执行 :在执行一个或多个任务的机器上,为每个子任务启动一个 TSE 模块,每个 TSE 模块有 10 个线程协同工作,爬取的页面存储在对应线程的 10 个文件中,子任务结束或大站点日志文件大小超过 2GB 时,TSE 停止工作。
3. 页面整合
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



