17、网络语料库：ukWaC与Sketch Engine的探索-优快云博客

本文链接：https://blog.youkuaiyun.com/fox11/article/details/154686234

网络语料库：ukWaC与Sketch Engine的探索

1. ukWaC语料库的构建

ukWaC是在2005 - 2007年间作为WaCky项目的一部分开发的一个包含20亿单词的英语语料库。WaCky项目旨在提供新的语料库资源，在大规模和为语言目的进行的彻底后处理之间取得平衡，理想情况下，这些资源应类似于传统的通用语言参考语料库，包含广泛的文本类型和主题，既包括各种性质的网络前文本，也包括典型的网络体裁文本。

构建网络语料库的过程可分为不同阶段，主要包括选择“种子URL”进行网络抓取，以及抓取后的清理和标注。
- 选择“种子URL”和抓取 ：
- 构建大型通用语料库需要预先选择一些URL作为起始点。对于ukWaC，第一步是确定不同的种子URL集合，以确保内容和体裁的多样性。这一步与代表性问题密切相关，而代表性问题在实践和理论层面都尚未完全解决。一方面，网络语料库的代表性问题只能从应用角度解决，尝试设计符合特定标准的网页抓取方法；另一方面，无法对语料库进行详细设计，因此事后评估语料库组成的方法变得至关重要，“平衡”和“无偏性”的概念在一定程度上取代了代表性的概念。
- 为了创建ukWaC，将随机配对的选定内容词提交给搜索引擎进行抓取。选择双词组合是因为单词查询可能会产生不理想的文档，而超过两个词的查询可能会检索到单词列表页面。同时，采用了确保内容和体裁多样性的策略，从不同来源选取种子词，如从BNC中选取2000个中频内容词随机配对，还从BNC的口语部分和英语学习者词汇表中选取其他词对。抓取仅限于.uk域名的页面，并排除非HTML数据。
- 抓取后清理和标注 ：
- 抓取结束后