统计自然语言处理:从理论到实践的探索
1. 统计自然语言处理的需求与背景
在当今在线信息、电子通信和万维网的时代,对统计自然语言处理(Statistical Natural Language Processing)全面教材的需求不言而喻。企业、政府机构和个人面临着大量对工作和生活至关重要的文本,但却难以充分理解这些文本,挖掘其中潜在的巨大价值。
同时,大型文本语料库的出现改变了语言学和认知科学中对语言的科学研究方法。过去在研究小型领域和单个句子时难以察觉或看似无趣的现象,如今已成为需要解释的核心问题。20世纪90年代初,定量方法在语言学中还被认为不够充分,重要的数理语言学教材甚至完全不涉及这些方法,但现在它们在语言学理论中的重要性日益凸显。
统计自然语言处理旨在平衡理论与实践、直觉与严谨性。它基于数学和语言学的理论思想,同时避免内容过于枯燥,展示如何运用理论思想解决实际问题。首先会介绍概率论、统计学、信息论和语言学的关键概念,为学习者奠定理解该领域的基础,然后描述统计自然语言处理中要解决的问题,如标注和消歧等,并介绍一些重要的研究成果。
在设计内容结构时,需要考虑纳入哪些内容以及如何组织。一个关键标准是控制内容篇幅,但这一目标并未完全实现。因此,它并非是对概率论、信息论、统计学以及统计自然语言处理中使用的其他众多数学领域的完整介绍。只能涵盖该领域中看似最重要的主题,在很多情况下,教学者可能需要使用补充材料来深入讲解特定的数学基础。
另外,不打算将统计自然语言处理呈现为在数学工具和理论上具有同质性的领域。虽然统一的基础数学理论是理想的,但目前并不存在这样的理论。这导致在某些方面呈现出折中的混合状态,但现在就规定某种自然语言处理方法是正确的并应
超级会员免费看
订阅专栏 解锁全文
2234

被折叠的 条评论
为什么被折叠?



