从多语资源词典(MRD)中提取分类法:挑战与应用
在自然语言处理领域,从词典中提取分类法是一项重要的工作,它有助于更好地理解词汇之间的语义关系,进而支持诸如机器翻译、文本理解等多种任务。本文将探讨如何从多语资源词典(MRD)中提取分类法,以及这种分类法在自然语言处理中的应用和面临的挑战。
1. 基本概念与问题提出
首先,我们来看一些基本的词汇定义。比如,牛至(oregano)是一种与马郁兰相关且用于烹饪的植物;乌头(wolfsbane)是一种与乌头属相关的开花植物。然而,隐性类别(covert categories)并不总是像White所描述的那样被明确标记。例如,在过于宽泛的人物类词汇中,许多词汇被定义为“研究……的人”,却未提及隐性类别“学者”。如果直接基于属术语(genus terms)构建分类法,而不考虑隐性类别,那么得到的分类法会过于繁杂,难以有效支持自然语言理解。
2. 双语分类法概述
虽然语义分类法在克服语言障碍方面具有潜力,但目前大多数关于分类法和相关MRD的研究都是单语的,关于构建和使用双语分类法的研究还很少。White从人类学的角度指出,不应将从词典中提取的语义分类法视为超越词典语言的存在。不过,在特定领域的分类法构建中,出于实际目的,他的观点有所缓和。Okumura和Hovy描述了一种通过双语词表连接两个分类法来构建双语分类法的启发式算法,而本文将介绍一种使用双语MRD构建双语分类法的新方法。
3. 从MRD中提取分类法的方法
3.1 属术语消歧:从混乱网络到树形结构
从MRD中提取分类法的关键在于定义中的语义信息,通常头词(headword)和其属术语之间存在“IS
超级会员免费看
订阅专栏 解锁全文
32

被折叠的 条评论
为什么被折叠?



