利用转换器改进形态学及上下文敏感的词距离计算
1. 词汇转换器
词汇转换器是一种有限状态自动机,它能将屈折的表层形式映射为词法形式,可视为两级形态学的发展。其具有以下特点:
- 形态类别作为词法形式的一部分来表示,这样可以避免使用变音符号。
- 同一个词的屈折形式会映射到相同的规范词典形式,这增加了词法形式和表层形式之间的差异。例如,“better”通过其规范形式“good”(good+COMP:better)来表示。
- 转换器可以进行交集和组合操作。通过这种方式,词典(词典本身也是一个转换器)可以集成到自动机中,词法和表层层面之间的变化可以表示为两级规则系统的级联。
使用词汇转换器进行形态处理非常快速,每秒可以处理数千个单词,并且整个形态描述的转换器可以压缩到不到 1MB。以下是词汇转换器的优势总结表格:
|优势|详情|
| ---- | ---- |
|映射方式|将屈折表层形式映射为词法形式|
|避免符号|避免使用变音符号|
|规范映射|同一词屈折形式映射到相同规范词典形式|
|操作特性|可进行交集和组合操作|
|处理速度|每秒处理数千个单词|
|存储大小|整个形态描述转换器可压缩到不到 1MB|
2. 标准分析器
巴斯克语是一种黏着语,在构词时,词典条目会独立地获取不同功能(包括句法格)所需的每个元素。具体来说,与限定词、数和变格相关的词缀会按此顺序且相互独立地获取(深层形态结构)。巴斯克语的一个主要特点是其具有众多格的变格系统,这使其与周边国家的语言有所区别。
为了对巴斯克语进行分析,应用了两级模型,定义了以下元素:
超级会员免费看
订阅专栏 解锁全文
6万+

被折叠的 条评论
为什么被折叠?



