人们总在创造新的语法规则,因而基于规则的方法来处理自然语言的并不能适用。因此我们不是通过规则来判断句子是不是合乎语法,而是解决:语言使用中通常出现的是什么形式。用来识别这些模式的主要工具是计数,就是统计方法。
1.1 理性主义和经验主义
一、两种学派的基本观点
Chomsky提出的语言本能的观点:认为孩子们在幼年的时候听到的语言是一个有限的输入,要观察他们怎样从这个有限的输入中学到自然语言这样复杂的东西是非常困难的。理性主义假定语言的关键部分(结构)是天生的,是生来就存在于大脑中的人类基因遗产的一部分,通过这个假设来回避这个困难的问题。
经验主义假设大脑中存在某些天生的联想、模式识别和概括等认识能力,通过可以得到的丰富的感官输入,使婴儿学习到自然语言的详细结构。在自然语言处理中,经验主义方法认为可以通过一个适当的语言模型学习复杂的和广泛的语言结构,通过统计学、模式识别和机器学习的方法应用到大规模的语言使用例子中,得到模型的参数。
实际中,我们常使用文本作为语言的替代,把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。把文本集合称为语料库(corpus),多个语料库称为语料库集合(corpora)。
二、两种学派方法上的区别
理性主义者探寻描述人类头脑中的语言的模型(I-语言),文本(E-语言)是数据,提供间接的证据,这个证据可以被母语说话者下意识补充。并提出语言能力(linguistic competence)和语言性能(linguistic preformance)之间的关键区别。语言能力反映了母语说话者脑海中假设存在的语言结构知识,语言性能则受到一系列事物的影响,如记忆的性和环境的噪声。同时认为人们可以孤立的看待语言能力并单独表示它。虽然承认在规则之间存在竞争,但仍然依赖于绝对规则:一个句子或者合乎语言,或者非法。
经验主义方法感兴趣的是描述实际出现的E-语言,反对理性主义提出的孤立看待语言能力的观点,注重