阿拉伯语的词汇标记框架(LMF):建模与应用
1. 形态扩展建模
阿拉伯语单词的形态具有屈折和派生两个方面。派生有两个层次,第一个基于词根,第二个基于派生形式。每个词根或派生形式都在单独的词汇条目(LE)中呈现,并通过具有DC类型的“相关形式”类进行连接,该DC可指定LE之间的关系类型。
在书面形式DC中表示单词的规范形式,名词的规范形式为单数,动词的规范形式为第三人称单数。为了最大程度地覆盖语言信息,选择表示带元音的单词,且无需提交无元音形式,因为它可以生成。不过,会去除对形态层面不重要的名称的最后一个元音,以避免句法基础的爆炸。
例如,“ك ت ب”、“َﺘَﺐَ آ”和“ٌﻣَﻜْﺘَﺐ”属于基于词根“ك ت ب”的同一派生链。词根“ك ت ب”与模式“َﻓَﻌَﻞ”结合得到派生形式“َﺘَﺐَ آ”,它又可与模式“ٌﻣَﻔْﻌَﻞ”结合得到新的派生形式“ٌﻣَﻜْﺘَﺐ”。“َﺘَﺐَ آ”的“相关形式”类型值为“root”以连接其词根“ك ت ب”,类型值为“derivedForm”以连接其派生形式“ٌﻣَﻜْﺘَﺐ”,而“ٌﻣَﻜْﺘَﺐ”的“相关形式”类型值为“stem”,表示由另一个派生形式生成。
形态扩展模型由三个类组成:词元(Lemma)、词形(Word Form)和相关形式(Related Form)。
以下是一个简单的流程说明:
1. 确定词根。
2. 选择合适的模式与词根结合生成派生形式。
3. 通过“相关形式”类连接词根和派生形式。
2. 形态模式扩展建模
阿拉伯语动词的变位基于两个有序步骤:
- 应用规则以找到依赖于体、语气和语
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



