统计自然语言处理:原理、挑战与应用
1. 统计自然语言处理的背景与需求
在当今在线信息、电子通信和万维网的时代,对统计自然语言处理(Statistical Natural Language Processing)进行全面研究的需求十分迫切。企业、政府机构和个人每天都会面对大量文本,这些文本对工作和生活至关重要,但人们往往难以充分挖掘其中潜在的巨大价值。
与此同时,大型文本语料库的出现改变了语言学和认知科学中对语言的研究方法。过去在研究小规模领域和单个句子时难以察觉或看似无趣的现象,如今已成为研究的核心。在20世纪90年代初,定量方法在语言学中被认为是不充分的,以至于一本重要的数理语言学教科书完全没有涉及这些方法。但现在,它们在语言学理论中的重要性日益凸显。
统计自然语言处理涵盖了所有用于自动语言处理的定量方法,包括概率建模、信息论和线性代数等。虽然概率论是形式统计推理的基础,但“统计”一词的基本含义更为广泛,涵盖了所有对数据的定量处理方法。
2. 理性主义与经验主义语言研究方法
2.1 理性主义方法
在1960 - 1985年左右,语言学、心理学、人工智能和自然语言处理领域大多被理性主义方法所主导。理性主义方法认为,人类大脑中的很大一部分知识并非通过感官获得,而是预先固定的,可能是通过遗传继承而来。在语言学中,诺姆·乔姆斯基(Noam Chomsky)关于先天语言能力的观点使得这一理性主义立场在该领域占据主导地位。在人工智能中,理性主义信念支持通过手动编码大量初始知识和推理机制来创建智能系统,以复制人类大脑的初始状态。
乔姆斯基提出先天结构的原因在于他所认为的“刺激贫乏问题”(poverty
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



