LMF在部分非洲和亚洲语言中的应用与挑战
1. 非洲语言转换为LMF格式的困难与建议
在将多种已出版的字典转换为LMF格式的过程中,遇到了诸多困难,以下将详细阐述并提出相应的解决方案或思考方向。
1.1 数据类别问题
- 语言名称与ISO 639 - 3代码 :识别语言及其对应的ISO 639 - 3代码存在困难。目前,ISO参考的是依赖少量研究的ethnologue网站,部分语言页面的参考资料不足。例如,关于Tamahaq语言的页面仅有一篇关于图阿雷格音乐的文献参考,且无文本摘录。实际上,该语言已有大量学术研究,应将这些研究纳入参考书目,以丰富语言目录。
- 词性列表 :遇到了ISO数据类别注册表(DCR)词性列表中未包含的词性。如“表意词”词性出现在豪萨语和卡努里语字典的词性列表中,索马里语也有其他未在ISO列表中的词性。此外,扎尔马语不区分名词的阴阳性,但区分定指和不定指。因此,有必要丰富词性列表,或允许为每种语言定义模块化的词性子列表。
1.2 LMF结构问题
- 缺乏宏观结构 :LMF标准将词汇资源表示在一个单独的文件中,无法表示复杂字典的宏观结构及其卷与卷之间的链接,如Papillon枢轴结构或PIVAX结构。
<LexicalResource>
<GlobalInformation entrySource="Prolex"/>
超级会员免费看
订阅专栏 解锁全文
11

被折叠的 条评论
为什么被折叠?



