基于词性标签的语言词汇相似度通用方法研究
1. 引言
早期,许多语言相似度测量任务是通过比较单词来完成的,主要聚焦于斯瓦迪士词表,因为该词表包含了多种语言共有的词汇。而现在,我们关注的是基于词性(PoS)标签的词汇相似度。词性主要基于开放类和封闭类单词,在实验过程中,我们重点研究语言词汇中的封闭类单词。这是因为开放类单词通常承载内容,而功能词(如代词和助词)在其他语言中较少被借用,所以使用和比较封闭类单词更为合适。
我们使用通用依存(UD)树库数据来研究目标语言的相似度。UD数据是一个标准数据集,以统一格式包含了多种语言的平行数据。由于我们计划基于词性标签研究单词相似度,UD的树库为单词的平行分析提供了有用工具。我们使用不同词性标签的单词列表和词元列表,然后开发了一种通用转录机制,将单词以统一的正字法表示进行比较分析。由于阿拉伯语的巴克沃尔特格式无法进行计算,因此对阿拉伯语进行了转换以获得原始格式/脚本,最后将单词转换为国际音标(IPA)进行比较。
该方法的优势和应用体现在信息检索、词性标签集的语言分析以及语言翻译特定系统的开发支持等方面。此外,自然语言处理领域的人员可以使用该系统进行词汇相似度测量,以识别来自其他语言的借词。
2. 背景
在语言相似度计算方面,前人已经提出了多种方法:
- Johann - Mattis提出了检查单词列表中所有词素的成对单词序列相似度的概念,利用这些相似度构建词素节点网络,并使用info - map算法对这些网络进行聚类。
- 有人通过单词列表推断语言的系统发育树,使用单词的加权对齐分类,其算法比未加权的单词编辑距离更准确。
- 有人利用语言的历史相关性,使用生物信息学算法
超级会员免费看
订阅专栏 解锁全文
2075

被折叠的 条评论
为什么被折叠?



