统计自然语言学习笔记(Manning):第1章

本文探讨了自然语言处理中理性主义与经验主义的对立观点,强调经验主义方法通过统计和模式识别处理语言的普遍形式。指出语言的非绝对现象、随机性和歧义是处理自然语言的关键挑战,而统计自然语言处理通过学习大规模语料库中的词汇和结构偏斜信息,有效解决这些问题。文中还提及词汇资源、Zipf法则和词的搭配等统计语言学概念,展示统计方法在理解和处理自然语言中的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

人们总在创造新的语法规则,因而基于规则的方法来处理自然语言的并不能适用。因此我们不是通过规则来判断句子是不是合乎语法,而是解决:语言使用中通常出现的是什么形式。用来识别这些模式的主要工具是计数,就是统计方法。

1.1 理性主义和经验主义

一、两种学派的基本观点

Chomsky提出的语言本能的观点:认为孩子们在幼年的时候听到的语言是一个有限的输入,要观察他们怎样从这个有限的输入中学到自然语言这样复杂的东西是非常困难的。理性主义假定语言的关键部分(结构)是天生的,是生来就存在于大脑中的人类基因遗产的一部分,通过这个假设来回避这个困难的问题。

经验主义假设大脑中存在某些天生的联想、模式识别和概括等认识能力,通过可以得到的丰富的感官输入,使婴儿学习到自然语言的详细结构。在自然语言处理中,经验主义方法认为可以通过一个适当的语言模型学习复杂的和广泛的语言结构,通过统计学、模式识别和机器学习的方法应用到大规模的语言使用例子中,得到模型的参数。

实际中,我们常使用文本作为语言的替代,把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。把文本集合称为语料库(corpus),多个语料库称为语料库集合(corpora)。

二、两种学派方法上的区别

理性主义者探寻描述人类头脑中的语言的模型(I-语言),文本(E-语言)是数据,提供间接的证据,这个证据可以被母语说话者下意识补充。并提出语言能力(linguistic competence)和语言性能(linguistic preformance)之间的关键区别。语言能力反映了母语说话者脑海中假设存在的语言结构知识,语言性能则受到一系列事物的影响,如记忆的性和环境的噪声。同时认为人们可以孤立的看待语言能力并单独表示它。虽然承认在规则之间存在竞争,但仍然依赖于绝对规则:一个句子或者合乎语言,或者非法。

经验主义方法感兴趣的是描述实际出现的E-语言,反对理性主义提出的孤立看待语言能力的观点,注重

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值