统计自然语言处理的主要需求包括计算机、语料库和软件。
基础知识:
1、计算机: 文本语料库通常都比较大,处理大量的文本需要相当多的计算资源。在早期的处理中,这是限制语料库运用的主要原因。统计自然语言处理方法不仅需要大量的空间来存储语料,而且经常需要从语料中收集大量的统计信息,所以要求计算机有比较快的存取速度。因此需要一台硬盘足够大,内存足够多的计算机。
2、语料库:一个语料库时按照某种标准收集的特殊文本材料。在文本分类中,一个系统的性能会由于时间关系极度恶化,因为某一时刻抽取出来用于训练的样本经过一年或者两年后就失去了原本的代表性。语料库是不是人们感兴趣的典型样本是这里的主要问题。如果我们从一个样本中得出的结论同样适用于一般对象,就可以说这个样本是典型的。这里还需要提到一个平衡语料库的概念。平衡语料库是按照事先确定好的某种重要标准,把每个子类的文本按照一定比例收集到语料库。在统计自然语言处理中,通常把感兴趣的某个领域的大量数据收集起来作为语料库,不管这些数据是怎么构造的。
3、软件:真正需要的软件就是简单的文本编辑器和某种编程语言的编译器或者解释器。除此之外,还会可能经常用到其他工具软件,例如在语料库中进行搜索的软件。
文本:
文本通常有两种形式:生文本和标注文本。标注是把某个分类代码插入到一个计算机文件中,这中分类代码通常并不是文件的组成部分,但是通过这些分类代码,我们可以了解文件的结构或格式信息。人类语言中的许多yuo使得文