接着上一节的内容继续阐述。
1.5 自然语言理解面临的困难
1、自然语言中大量存在的歧义(ambiguity)现象。
(a) 结构歧义
歧义组合数我们称之为开塔兰数(Catalan Numbers,记作Cn) :
(a) 语义歧义
例子:
2、自然语言中存在未知的语言现象。
(a) 新的词汇
例如: “非典”、专业术语、外来语、人名等
(b) 新的含义
例如:窗口、奔腾、农民等
(c) 新的用法和语句结构等
尤其在口语中或部分网络语言中,不断出现一些“非规范的”新的语句结构。eg:你走先(哈哈哈)。
1.6 不同语言的差异
1、不同的语系。
孤立语(分析语):形态变化少,语法关系靠词序和虚词表示,如汉语。
曲折语:用词的形态变化表示语法关系,如英语。
黏着语:词内有专门表示语法意义的附加成分,词根或词干与附加成分的结合不紧密,如日语。
2、不同的语言单位。
汉语:汉字(单音节、无空格)。
英语:英语(多音节、有空格)。
日语:字和词(多音节、无空格)。
3、不同的语法
1.7 自然语言理解研究的基本方法
理性主义与经验主义方法的哲学分野之一:对语言知识来源的不同认识。
理性主义认为(1960s – 1980s中期):人的很大一部分语言知识是与生俱来的,由遗传决定的。Chomsky的内在语言官能(innate language faculty)理论被广泛接受。
人工编汇初始语言知识+推理系统=》自然语言处理系统。
经验主义认为(1920s – 1950s,1980s中期-):人的语言知识是通过感官输入,经过一些简单的联想与通用化(generalization)的操作而得到的。大量的语言数据中获得语言的知识结构。
理性主义与经验主义方法的哲学分野之二:研究对象的差异。
理性主义方法:研究人的语言知识结构(语言能力,language computence),实际的语言数据(语言行为,language performance)只提供了这种内在知识的间接证明。
经验主义方法:直接研究这些实际的语言数据。
理性主义与经验主义方法的哲学分野之三:运用不同的理论。
理性主义:通常基于chmosky的语言原则(principles),通过语言所必须遵守的一系列原则来描述语言。
经验主义:通常是基于Shannon的信息论。
理性主义与经验主义方法的哲学分野之三:采用不同的处理方法。
理性主义:通常通过一些特殊的语句或语言现象的研究得到对人的语言能力的认识,而这些语句和语言现象在实际的应用中并不常见。
经验主义:偏重于对大规模语言数据中人们所实际使用的普通语句的统计。
1.7 自然语言理解研究的基本方法
符号只能+计算智能
理性主义研究方法-----符号处理系统。
经验主义研究方法-----基于语言数据的计算方法。
理性主义与经验主义的合谋----融合方法。
1.8 自然语言理解的发展和研究现状
自然语言理解的发展
**萌芽期:**1946年世界上第一台计算机出现,自然语言理解的研究起始于机器翻译。
发展期:自1966年美国自动语言处理资讯委员会(ALPAC)提出ALPAC报告。研究重点转写其他分支:人机接口、对话系统、信息检索等。基本方法:基于规则分析方法。
繁荣期:自20世纪80年代末期以后,基于语料库的统计方法引入自然语言处理。
自然语言理解的研究现状ont>
-文字处理器
-文字输入
-网络搜索引擎
-辅助翻译、电子词典
-语音合成
… …