统计自然语言处理基础-第一章 绪论(笔记)

本书探讨自然语言处理的统计方法,通过计数识别语言使用中的常见形式。章节涵盖了理性主义与经验主义方法、科学内容、语言的随机性、歧义处理和词汇资源。重点介绍了Zipf法则在语言学中的应用,以及词汇搭配和索引的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第一章 绪论

语言学的目的是为了能够描述和解释我们周围的语言现象。

为了解释语言的结构,人们设计了一些规则来将语言表达结构化。这些语法法则变得日趋正式和严格,试图描述什么是正确的和不正确的语言表达。然而,这种方式一个明显的缺陷是: 对于正确的语言表达,我们无法给出一个精确并且完备的特性,因而无法把他们和错误的语言表达清楚地区分开来。

本书不严格区分句子是否合乎语法,则是要探索语言使用中句子通常出现的形式是什么。使用统计语言学则是通过计数,即统计方法识别语言使用中通常出现的形式。

本书建立一个统计语言模型并有效的使用它来处理许多自然语言处理任务。

1.1 理性主义者和经验主义者的方法

共同关注的问题:什么样的先验知识(先于经验的知识)应该加入所设计的语言模型

1960-1985 理性主义占统治地位,包括(语言学、心理学、人工智能和自然语言处理),他们相信在人类头脑的知识不是感官得到的,而是提前固定在头脑中,由遗传基因决定的。chomsky理性主义的关键假设:先天结构论,假设语言的关键部分是天生的,理性主义假设大脑中存在某些原始的结构(基因),

经验主义倾向于相信人类大脑中有一种结构,能够从感官输入的信息中组织和产生语言,因此不经过学习生成某些语言也是有可能的。经验主义假设:大脑中存在某些原始结构,可以从感官输入的信息中组织和产生语言。

相同点:认为不经过学习产生某种语言是可能的。

经验主义突破之处:认为人类的智能不是开始于细化的规则及以及针对语言结构和其他感知领域的程序集,认为婴儿的大脑最初具有联想,模式识别和概括的一般能力,这些能力可以通过丰富的感官输入,是孩子学习到自然语言的详细结构。

相对于自然语言处理。经验主义方法认为可以通过一个适当的语言模型学习复杂的和广泛的语言结构,通过把统计学、模型识别和机器学习的方法应用到大规模的语言使用例子中,可以得到模型参数的数值。

语料库:一个文本集合 (实际中不能研究观测到大规模的语言实例,人们用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品)

理性主义者和经验主义者试图表述不同的事务。

乔姆斯基语言学派(产生式)探寻描述人类头脑中的语言模型(I-语言),这个语言模型的数据,即文本(E-语言),只提供了间接的证据,这个证据是可以被母语说话者下意识补充的。

经验主义方法感兴趣的是描述实际出现的E-语言。

乔姆斯基提出了在语言能力和语言性能之间的关键区别。

能力语言反应了母语说话者脑海中假设存在的语言结构知识,语言性能则受到一系列事物的影响,如记忆的局限性和环境的传递噪声。产生式语言同意这种观点,认为人们可以孤立的看待语言能力并且单独表示他,但是经验主义方法反对这样的观点,而是想刻画语言的实际使用。

统计语言处理的研究方法源自Shannon的工作,目的是为语言事件指定概率

经验主义者经常发现,通过研究句子经常使用的形式,人们可以很好地刻画真实世界

理性主义方法:这是一种信仰,认为人类头脑中重要的知识不是感官得到的,而是提前固定在头脑中,由遗传基因决定的。在人工智能领域,理性主义者试图建立一个智能系统,希望通过手工编码大量的先验知识和推理机制,得到复制人类大脑的语言能力。

依据:刺激缺乏(poverty of the stimulus)问题——认为孩子们在幼年时听到的语言是有限输入,认为从中学到自然语言这样复杂的东西是非常困难的。理性主义假定语言的关键部分是天生的。

经验主义方法:同样假设大脑中存在某些认知的能力,但是与理性主义的区别在于,理性主义认为大脑存在某些原始结构(具有关键语言知识),经验主义认识大脑中存在某种结构,可以从感官输入的信息中组织和产生语言。主要突破在于认为人类的智能不是开始于细化的规则集,也不是开始于针对各种各样语言结构和其他感知领域的程序集。在人工智能方面,经验主义方法认为可以通过一个适当的语言模型,学习复杂和广泛的语言结构,通过把统计学、模式识别和机器学习的方法应用于大规模的语言使用例子,可以获得模型的参数。

依据:认为婴儿的大脑最初具有联想、模式识别和概括的一般能力,这些能力可以通过丰富的感官输入学习得到。

实际中,人们简单的研究文本(而不是大规模的语言实例),并且把文本中的上下文关系作为现实世界中语言上下文关系的替代品(即统计中,用样本去估计总体的思想)。

1.2 科学内容

人们对语言的使用形式的频率感兴趣是有清晰和毋庸置疑的科学原因。也就是统计学是研究语言的一种方法。

1.2.1 语言学需要回答的一些问题

1 人们说的话是什么?

2 人们说/问/要求的事物相应于现实世界的是什么?

第一个问题涉及了语言结构的所有方面,第二个问题涉及了语义学、语用学和话语,即怎样把人类说的话和现实世界连接起来。第一个问题是语料库语言学的研究范畴,而一个词的使用模型可以作为一个替代品,是人类深入理解他的语义和使用,因此我们也可以用一个基于语料库的技术来处理第二个问题。

人们说的话是什么?

​ 传统的语言学(结构主义的/产生式的):它不是描述人们常说的话语形式,而是追求描述一个可以成为语言基础的“能力语法”,假设某些产生式的方法在说话者的大脑中。这种方法仅给出了一个合乎语法的句子集合,这些句子合乎能力语法,而除此之外其他的词串是不合乎语法的。这种语法合理性的概念意味着我们只是单纯的判断一个句子是否是结构完好的,而不管句子是否是人们习惯的表达方式,或者句子是否有正确的语义。

句法结构合理性就是一个二值判定:合乎语法 不合乎语法,但是很难把这样的绝对判别理论推广到语言应用的所有领域中

1.2.2 语言中的非绝对现象

语言的变化包括词汇的变化和语法的变化。词汇会改变本身的含义和词性。这也印证了理性主义的绝对性假设是错误的。

虽然语言的演变可以是突然的(内因或者外因),但是通常来说他是逐渐改变的,只有考察使用的频率才能搞清楚渐变的细节问题。也就是需要统计观察

1.2.3 语言和认知是随机现象

可以用概率论的知识来解决语言的随机

把概率作为理解语言的一种科学方法的最基本论点认为,人类的认知是随机的,因此语言也必须是随机的,因为它是认知的一个完整部分。大部分句子都是二值可分的,大多数情况下,单词只使用一个词性,=>概率论

书中推崇的观点是,复杂的概率模型可以像一个复杂的非概率模型一样解释问题,并且还带有更多的有点,它们可以解释在认知中和实际的语言中经常出现的不确定的、不完整的现象。

自然语言处理的观点是,句子的意思包含在话语上下文的字里行间。

1.3 语言中的歧义问题是自然语言难以处理的原因

自然语言处理系统需要确定文本的结构性问题,它至少需要能够回答:“谁对谁做了什么?”传统思维句法分析系统试图仅仅根据一些可能的结构来回答这个问题,这些结构可以认为某些词在属于某一词性的情况下是合乎句法的。

当遇到长一些的句子和复杂一些的语法的时候,歧义问题就会导致句法分析结果数量的成本增长

一个好的自然语言处理系统必须具有好的消除歧义功能,要解决词义、词类别、句法结构和语义范畴的歧义问题。歧义最小化和最大化矛盾。

统计模型的使用可以很好的解决歧义问题。

自然语言处理自动从语料库中学习词汇和结构偏向性信息,以此来探寻解决歧义问题。因为不单独使用句法的类来分析,而是利用大量词汇间的关系信息,可以更深入的反映语义关系。而且,统计模型具有鲁棒性和概括性,在含有错误的数据和新数据中性能优异。

1.4 第一手资料

1.4.1 词汇资源

机器可读的文本、词典、类义词典和处理它们的工具

Brown语料库:100万个词(知名度最高,收费)

Susanne语料库:Brown语料库的子集,130000个词(Brown语料库子集,免费)

The Canadian Hansards:双语语料库(加拿大会议议事录,最著名的双语语料库)

WordNet(词网)

1.4.2 词的记数

词次(word token),文本中单词总共出现的次数,同一单词多次出现,则多次计数,衡量文本的篇幅。

词形(word type),文本中出现多少个不同的单词,同一单词多次出现,仅记1次,衡量文本的词汇量。

token对type的比值,得到每个type在文本中出现的平均次数。

自然语言处理中最主要的问题是,词汇的出现次数非常不平均。常用词出现次数将近一半,换句话说,大部分词汇出现的次数是非常小的。因此,自然语言处理面临的最大困难是:对于语料库中没有出现或者几乎不出现的词,我们很难预测它们的行为。Zipf 法则针对的问题就是这些稀有词汇。

1.4.3 Zipf 法则

Zipf法则

最小精力付出原理。认为人类会尽可能最小化他们的平均工作率。目的是揭示语言中某些概率分布。
在这里插入图片描述

实际上,我们并不会把这种关系看做一个法则,而是作为某些试验事实的一个比较粗糙的特性。这里可以容易的理解最小精力付出原理。也就是说,说话者希望用最少(类型,word type)来表述自己的话语(不需要记住太多的词汇即可表述自己的意思,付出少,同时导致同一个常用词大量使用,这是从说话者或者文章作者角度考虑的最小精力付出);而从听话者(信息接收者的角度),希望用更多的词汇来理解说话者的意思(听话中是信息的接受者,精力主要付出在理解信息,如果说话者用更多的词汇可以减少歧义)。这两个矛盾导致要完成一次对话(信息的传递),词汇的频率与位置就具有近似的关系式。
在这里插入图片描述
在这里插入图片描述

这是一个双曲分布,Mandelbrot认为Zipf的简化公式在一般情况下是不对的,
在这里插入图片描述

其他法则

1 词汇语义数量和出现频率有关:排名越前(1)的词的平均语义项越多,

Zipf认为

在这里插入图片描述
2 实词有聚集在一起的趋向:对于某一个固定大小的间隔,它出现的次数和间隔大小成反比,大部分情况下同一个实词趋向于在相邻的位置出现

在这里插入图片描述

强法则

Zipf法则作为一个语言的一个特性在某些方面缺少说服力,但是基本观点应该保留,概率方法应用于语言学的困难是几乎所有的词都很稀有。

1.4.4 词的搭配

词的搭配包括复合结构。动词短语和一些固定词组,经常含有特殊的意思或则是习惯用法。

搭配在统计自然语言处理领域中的机器翻译和信息检索方面很重要。

语言不能从实际使用的环境和社会背景中剥离开

在搭配获取过程中,需要用某种方法把每个词的频率都考虑进去,获取我们感兴趣的搭配结构。

5章中详细讲

1.4.5 词汇索引

统计自然语言处理的工作中,主要的任务就是对大规模数据(如词汇索引和搭配候选列表)进行统计。在一个语言工程开始的时候,这些工作有助于理解重要的语言现象,然后精炼最初的模型,并且在最后评价得到的结果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值