网络语料库:ukWaC与Sketch Engine的探索
1. ukWaC语料库的构建
ukWaC是在2005 - 2007年间作为WaCky项目的一部分开发的一个包含20亿单词的英语语料库。WaCky项目旨在提供新的语料库资源,在大规模和为语言目的进行的彻底后处理之间取得平衡,理想情况下,这些资源应类似于传统的通用语言参考语料库,包含广泛的文本类型和主题,既包括各种性质的网络前文本,也包括典型的网络体裁文本。
构建网络语料库的过程可分为不同阶段,主要包括选择“种子URL”进行网络抓取,以及抓取后的清理和标注。
- 选择“种子URL”和抓取 :
- 构建大型通用语料库需要预先选择一些URL作为起始点。对于ukWaC,第一步是确定不同的种子URL集合,以确保内容和体裁的多样性。这一步与代表性问题密切相关,而代表性问题在实践和理论层面都尚未完全解决。一方面,网络语料库的代表性问题只能从应用角度解决,尝试设计符合特定标准的网页抓取方法;另一方面,无法对语料库进行详细设计,因此事后评估语料库组成的方法变得至关重要,“平衡”和“无偏性”的概念在一定程度上取代了代表性的概念。
- 为了创建ukWaC,将随机配对的选定内容词提交给搜索引擎进行抓取。选择双词组合是因为单词查询可能会产生不理想的文档,而超过两个词的查询可能会检索到单词列表页面。同时,采用了确保内容和体裁多样性的策略,从不同来源选取种子词,如从BNC中选取2000个中频内容词随机配对,还从BNC的口语部分和英语学习者词汇表中选取其他词对。抓取仅限于.uk域名的页面,并排除非HTML数据。
- 抓取后清理和标注 :
- 抓取结束后
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



