形态学:语言处理的核心要素
1. 引言
在语言处理领域,诸多任务如拼写检查与纠正、词干提取、句法分析、文本生成、机器翻译以及文本转语音等,都需要提取和处理单词中编码的信息,或者根据可用的语义和句法信息合成单词。这对于具有丰富形态学的语言尤为重要,例如匈牙利语、芬兰语、土耳其语和阿拉伯语等。
计算形态学旨在开发用于语言处理应用的单词形式计算分析和合成的形式化方法和算法。形态分析是将单词分解为其组成语素以揭示语言信息的过程,而形态生成则是根据可用的语言信息合成单词的过程,确保组成单词的各个部分正确组合并妥善处理它们之间的相互作用。
2. 形态学概述
2.1 语素分类
语素可根据其出现方式分为两类:自由语素可以单独作为一个单词出现,而黏着语素本身不是单词,必须以某种方式附着在自由语素上。不同语言中语素的组合方式以及语素及其组合所传达的信息各不相同。语言大致可分为以下几类:
|语言类型|特点|示例|
| ---- | ---- | ---- |
|孤立语|不允许任何黏着语素附着在单词上|汉语普通话(有一些小例外)|
|黏着语|多个黏着语素可以像“串珠”一样附着在自由语素上,每个语素通常传达一条语言信息|土耳其语,如“gid+ebil+ecek+ti+m”表示“我本可以去”|
|屈折语|单个黏着语素(或紧密结合的自由和黏着形式)同时传达多条信息|西班牙语,如“habla+mos”中,后缀“+mos”表示完成或现在陈述式以及第一人称复数一致|
|多式综合语|使用形态学来表达某些元素(如动词及其补语),这些元素在其他语言中通常作为完整的句法元素出现|某些爱斯基摩语|
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



