文本与语音基础:自然语言处理的核心要素
1. 计算语言学概述
计算语言学过去被视为计算机科学的一个领域,但如今它已发展成为一个跨学科领域,融合了语言学、心理学、神经科学、哲学、计算机科学和数学等多个学科。随着社交媒体、对话代理和个人助手的兴起,计算语言学在创建用于建模和理解人类语言的实用解决方案方面变得越来越重要。
2. 自然语言的特性
自然语言是人类在日常使用中自然演变而来的,没有经过正式构建,包括口语和手语。据估计,目前大约有 7000 种人类语言,其中前 10 种语言的使用者占世界人口的 46%。
自然语言本质上具有模糊性,尤其是在书面形式中。以英语为例,其词汇量约有 17 万个,但日常常用的只有约 1 万个。人类交流为了提高效率,会重复使用较短的词汇,并通过上下文来确定其含义,这虽然减轻了人类大脑的计算负担,但也使得计算机处理和理解自然语言变得困难,这种困难还体现在处理讽刺、反语、隐喻和幽默等方面。在任何语言中,词汇意义、语法结构和句子结构都存在歧义。
3. 语言模型
在分析自然语言时,我们通常会将语言特征分为不同的类别。对于文本分析,这些类别包括形态学、词汇学、句法、语义学、语篇和语用学;对于语音分析,则包括声学、语音学、音位学和韵律学。以下是具体说明:
| 分析类别 | 描述 |
| — | — |
| 形态学 | 单词的形状和内部结构 |
| 词汇学 | 将文本分割成有意义的单元,如单词 |
| 句法 | 应用于单词、短语和句子的规则和原则 |
| 语义学 | 句子中的上下文提供的含义 |
| 语篇 | 对话以及句子之间的关系 |
超级会员免费看
订阅专栏 解锁全文
2155

被折叠的 条评论
为什么被折叠?



