Aranea与电子方言语料库的构建与应用
在语言研究领域,语料库的建设和利用对于教学、研究和词典编纂等方面都具有重要意义。本文将介绍Aranea语料库家族的构建过程,以及一个关于电子方言语料库统一利用的项目。
Aranea语料库家族
- 项目背景与目标 :启动该项目的动机是缺乏适合大学外语和翻译专业学生使用的语料库。现有语料库要么未涵盖所需的所有语言,要么存在下载不便、规模过大或语法草图不兼容等问题。项目旨在创建一系列规模相等、采用标准化方法构建的语料库,用于教学、语言对比研究和词典编纂。
- 语料库命名与规模
- 命名 :采用“语言中立”的拉丁名称来表示文本的语言和规模,整个语料库家族称为Aranea,各成员有相应的语言名称,如Araneum Anglicum(英语)、Araneum Germanicum(德语)等。
- 规模 :每个语料库有多个版本,包括基本的中等规模版本Maius(约12亿个词元)、用于教学的10%随机样本Minus、用于调试和调整语法草图的1%样本Minimum,以及包含尽可能多网络数据的最大版本Maximum。
- 数据采集与预处理
- 数据采集 :使用SpiderLing网络爬虫收集文本数据,该系统集成了字符编码、语言识别和去除样板文本的工具。输入种子URL的采集过程已标准化,具体步骤如下:
超级会员免费看
订阅专栏 解锁全文
31

被折叠的 条评论
为什么被折叠?



