16、大规模中文网页测试集构建与主题跟踪技术解析-优快云博客

本文链接：https://blog.youkuaiyun.com/jupyter5notebook/article/details/153395339

大规模中文网页测试集构建与主题跟踪技术解析

大规模中文网页测试集 CWT100g 的构建

在构建大规模中文网页测试集 CWT100g 时，文档选择策略是关键的一环。确定采样站点 D7 后，需要依据这些站点进行页面爬取。并非所有站点的页面都会被爬取，只保留 MIME 类型为 “plain/html” 或 “plain/text” 的页面。若页面虽使用非中文语言，但属于中文范围，也会被保留。同时，会排除 DOC 和 PDF 格式的文件，并且去掉带有问号的 URL 对应的动态页面，因为判断动态页面的有效性较为困难。

爬取过程中有两个主要问题，分别是原始网页的存储格式和页面爬取策略。存储格式要求占用磁盘空间少、具备容错能力且使用方便，CWT100g 采用了 Tianwang 存储格式，满足这些要求。页面爬取策略方面，使用了改进版的 TSE 作为爬取系统，其策略类似于广度优先爬取方法。

具体的爬取步骤如下：
1. 分组任务划分 ：将 D7 划分为 205 个组，每组 100 个站点（最后一组站点数可能少于 100），每个组用唯一文件名表示一个细粒度的子任务，将具有相同中间字母的子任务整合为一个粗粒度的任务，以任务为基本单位分配工作量，根据中文范围内站点页面分布的 Zipf 定律，合理分配任务使工作量平衡。
2. 子任务执行 ：在执行一个或多个任务的机器上，为每个子任务启动一个 TSE 模块，每个 TSE 模块有 10 个线程协同工作，爬取的页面存储在对应线程的 10 个文件中，子任务结束或大站点日志文件大小超过 2GB 时，TSE 停止工作。
3. 页面整合