基于语料库的自然语言处理工作全解析
在自然语言处理(NLP)的领域中,基于语料库的工作是基础且关键的一环。下面将详细介绍开展基于语料库工作所需的准备,以及在处理文本过程中会遇到的各种问题和解决方法。
开展工作的前期准备
在进行基于语料库的统计自然语言处理(Statistical NLP)工作时,主要需要计算机、语料库和软件这三个要素。
计算机
文本语料库通常规模庞大,处理大量文本需要相当多的计算资源。在早期计算时代,这是使用语料库的主要限制。例如,在20世纪60年代构建布朗语料库时,对语料库中的所有单词进行排序以生成单词列表需要17个小时的专用处理时间,因为当时的计算机(如IBM 7070)内存仅相当于约40千字节,排序算法不得不将待排序的数据存储在磁带驱动器上。如今,即使是一台普通的计算机也能在几分钟内完成相同数据的排序。
统计NLP方法不仅需要大量的存储空间来存储语料库,还经常需要从语料库中收集大量的计数信息,并希望能够快速访问这些信息。因此,一台拥有大容量硬盘和大量内存的计算机是理想之选。随着技术的快速发展,对硬件的具体要求难以精确界定,但总体趋势是向好的,通常一台配置合理且内存廉价扩展的个人计算机就可以满足需求。
语料库
以下是一些主要的语料库分发组织及其联系方式:
|组织名称|网址|
| ---- | ---- |
|Linguistic Data Consortium (LDC)|http://www.ldc.upenn.edu|
|European Language Resources Association (ELRA)|http://w
超级会员免费看
订阅专栏 解锁全文
899

被折叠的 条评论
为什么被折叠?



