统计自然语言处理1-----绪论(二)

本文探讨了自然语言理解中的关键挑战,包括语言歧义、未知语言现象及不同语言间的差异。介绍了理性主义与经验主义两种研究方法的区别,并回顾了自然语言理解从萌芽到繁荣各个阶段的发展历程。

接着上一节的内容继续阐述。

1.5 自然语言理解面临的困难

1、自然语言中大量存在的歧义(ambiguity)现象。

(a) 结构歧义
这里写图片描述
这里写图片描述

歧义组合数我们称之为开塔兰数(Catalan Numbers,记作Cn) :

这里写图片描述

(a) 语义歧义

例子:

这里写图片描述

2、自然语言中存在未知的语言现象。

(a) 新的词汇
例如: “非典”、专业术语、外来语、人名等

(b) 新的含义
例如:窗口、奔腾、农民等

(c) 新的用法和语句结构等
尤其在口语中或部分网络语言中,不断出现一些“非规范的”新的语句结构。eg:你走先(哈哈哈)。

1.6 不同语言的差异

1、不同的语系。

孤立语(分析语):形态变化少,语法关系靠词序和虚词表示,如汉语。
曲折语:用词的形态变化表示语法关系,如英语。
黏着语:词内有专门表示语法意义的附加成分,词根或词干与附加成分的结合不紧密,如日语。

2、不同的语言单位。

汉语:汉字(单音节、无空格)。
英语:英语(多音节、有空格)。
日语:字和词(多音节、无空格)。

3、不同的语法

这里写图片描述

1.7 自然语言理解研究的基本方法

理性主义与经验主义方法的哲学分野之一:对语言知识来源的不同认识。

  理性主义认为(1960s – 1980s中期):人的很大一部分语言知识是与生俱来的,由遗传决定的。Chomsky的内在语言官能(innate language faculty)理论被广泛接受。

    人工编汇初始语言知识+推理系统=》自然语言处理系统。

  经验主义认为(1920s – 1950s,1980s中期-):人的语言知识是通过感官输入,经过一些简单的联想与通用化(generalization)的操作而得到的。大量的语言数据中获得语言的知识结构。

理性主义与经验主义方法的哲学分野之二:研究对象的差异。

  理性主义方法:研究人的语言知识结构(语言能力,language computence),实际的语言数据(语言行为,language performance)只提供了这种内在知识的间接证明。
  经验主义方法:直接研究这些实际的语言数据。
  
理性主义与经验主义方法的哲学分野之三:运用不同的理论。

  理性主义:通常基于chmosky的语言原则(principles),通过语言所必须遵守的一系列原则来描述语言。
  经验主义:通常是基于Shannon的信息论。

理性主义与经验主义方法的哲学分野之三:采用不同的处理方法。

  理性主义:通常通过一些特殊的语句或语言现象的研究得到对人的语言能力的认识,而这些语句和语言现象在实际的应用中并不常见。
  经验主义:偏重于对大规模语言数据中人们所实际使用的普通语句的统计。

1.7 自然语言理解研究的基本方法

符号只能+计算智能

理性主义研究方法-----符号处理系统。
经验主义研究方法-----基于语言数据的计算方法。
理性主义与经验主义的合谋----融合方法。

1.8 自然语言理解的发展和研究现状

自然语言理解的发展

**萌芽期:**1946年世界上第一台计算机出现,自然语言理解的研究起始于机器翻译。
发展期:自1966年美国自动语言处理资讯委员会(ALPAC)提出ALPAC报告。研究重点转写其他分支:人机接口、对话系统、信息检索等。基本方法:基于规则分析方法。
繁荣期:自20世纪80年代末期以后,基于语料库的统计方法引入自然语言处理。
  
自然语言理解的研究现状ont>

-文字处理器
-文字输入
-网络搜索引擎
-辅助翻译、电子词典
-语音合成
… …
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱科研的徐博士

请各位看官赏赐,小仙女笔芯笔芯

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值