跨语言词义消歧:原理、挑战与应用
1. 词义消歧概述
词义消歧(WSD)旨在明确多义词在特定语境中的准确含义。早期,资源逐渐取代了手动编码,但WSD仍主要基于词典或知识。20世纪90年代,统计革命席卷计算语言学,有监督的机器学习技术开始应用于WSD。到了2000年代,有监督方法收益递减,研究重点转向领域适应、混合方法、粗粒度词义以及无监督、半监督和基于图的技术。
2. 词义消歧的评估
WSD评估需要两个输入:
-
语言词典
:用于指定待消歧的词义,是WSD评估的初始输入。
-
测试语料库
:需要一个大型、标注良好的测试语料库来确定正确的词义。测试语料库可分为两类:
-
词汇样本语料库
:用于系统中需要对少量单词的含义进行消歧的情况。
-
全词语料库
:用于需要澄清一段连贯文本中所有单词含义的系统。使用全词语料库被认为是更现实的评估方法。
Senseval有五个版本,分别是1998年发布的Senseval_1、2001年发布的Senseval_2、2004年发布的Senseval_3、2007年发布的SemEval_2007和2010年发布的Semeval_2010,其目的是评估各种程序在不同单词、语言变体和语言方面的优缺点。
3. 词义消歧的类型
词义消歧主要有以下四种类型:
| 类型 | 描述 |
| ---- | ---- |
| 经典单语WSD评估任务 | 依赖于对人工标注的词义语料库进行半监督/监督分类,并使用WordNet作为词义清单。 |
| 跨语言WSD评估 | 同时考虑两种或多种语言的WSD。与多语言WD任务不同,其词义清单是基于并行语料库(如Europarl Parallel Corpus)生成的,而不是为多义词的每个词义手动提供标注样本。 |
| 多语言WSD | 跨两种或多种语言的WSD,其评估活动使用各自的词义清单,如WordNet,或双语词义清单,如BabelNet。 |
| 词义归纳与消歧 | 是一项组合任务评估,首先从预先确定的多义词训练数据集及其出现的句子中归纳出词义清单,然后在单独的测试数据集上进行WSD。 |
4. 词义消歧的困难
词义消歧面临诸多困难,具体如下:
-
词典差异
:不同的词库和词典对单词的词义划分不同,这使得定义单个单词的词义成为一个问题。虽然有学者建议使用特定的词典及其词义集来解决,但基于广义词义差异的研究结果通常优于基于狭义词义差异的研究结果,大多数研究人员仍在进行细粒度的WSD研究,常见的方法是使用WordNet作为英语词义清单资源,此外,Roget’s Thesaurus和Wikipedia也用于消歧,多语言WSD中最近开始使用BabelNet。
-
词性标注
:在测试中,词义标注和词性标注密切相关,一个可能会限制另一个。目前,关于这两项任务是应一起处理还是分开处理尚无定论,但科学家越来越倾向于独立部署它们。
-
评判者间差异
:WSD系统通常通过让其执行特定任务,然后将其性能与人类进行比较来测试。给文本分配词性很简单,但教人们标注词义要复杂得多。
-
语用学
:一些人工智能研究人员认为,没有常识本体就无法解析单词的含义。语用学就是指这个语言问题,专家认为,正确检测词义需要了解常识信息,当文本中出现预指或回指时,通常需要运用常识来解读代词等术语。
-
词义清单和依赖任务的算法
:独立于任务的词义清单不是一个合理的概念。每个活动都需要将单词的含义自我分类为与任务相关的词义,而且不同的应用可能需要完全不同的算法。在机器翻译中,选择目标词是一个难题,目标语言中的“词义”通常与源语言中的主要词义差异相关。
-
词义离散性
:“词义”的概念模糊且有争议。大多数人对粗粒度的同形异义词差异(如“pen”作为围栏或书写工具)看法一致,但在细粒度的多义词方面存在争议。原则上,词义是无限可变且依赖于上下文的,很难分解为单独或独特的子含义,这就是词义的离散性。
5. 词义消歧的方法
WSD主要有深度方法和浅层方法两种途径:
-
深度方法
:意味着可以访问大量的全局信息语料库,但除了相对狭窄的领域外,这种计算机可读的知识语料库并不存在,因此这些技术在实践中通常不太有效。
-
浅层方法
:专注于周围的单词而不是试图理解内容。通过使用标注了各自词义的单词训练语料库,计算机可以机械地生成这些规则。WSD通常有以下四种主要方法:
-
基于词典和知识的方法
:依赖于知识资源,如WordNet、词库和机器可读词典(MRD)。为了进行消歧,它们可能会使用语法规则和/或手动编码的规则。许多词典和词库已以MRD格式提供,基于词典的Lesk算法被认为是基础方法,其原理是文本中的单词相互关联,这种关系可以在单词的含义和定义中观察到,通过使用词义高度重叠的单词对的词典词义来消歧两个(或更多)术语。
-
半监督或最小监督方法
:使用辅助信息源作为种子数据。由于缺乏训练数据,大多数WSD方法采用半监督学习,允许同时输入有标注和无标注的数据。该方法利用人类语言的“每个话语一个词义”和“每个搭配一个词义”的特点进行词义消歧。
-
无监督方法
:使用原始的、未标注的语料库,几乎完全避免外部信息。无监督学习是WSD研究人员面临的最困难问题,其基本前提是相同的含义出现在相同的情况下,因此可以通过根据上下文相似度对单词的出现进行分组来推断词义,这个过程称为词义区分或归纳。
-
有监督方法
:前提是上下文本身可以提供足够的数据来消歧单词,逻辑和常识被认为是多余的。WSD可能已经应用了所有已知的机器学习算法,相关方法如集成学习已被证明是非常有效的技术,因为它们能够处理特征空间的高维度。然而,这些有监督技术依赖大量手动标注词义的语料库进行训练,生成这些语料库既耗时又昂贵,因此面临新的知识获取瓶颈。这些技术包括朴素贝叶斯分类器方法、决策树和决策列表方法、支持向量机方法和神经网络方法。
6. 基于图的跨语言词义消歧
并行语料库为整合无监督和有监督方法的优势以及利用文本翻译对应关系提供了新途径。跨语言WSD方法通过用正确的翻译标注目标术语来消除歧义。图学习在资源稀缺的语言中很有用,它是对当前元学习方法的成功升级,允许更好、更稳定的学习,并且在某些语言中可以达到新的技术水平,同时在其他语言中表现相当,只需要少量的标注数据。图学习是一个将图分析与深度学习相结合的新多学科领域。
以下是几种基于图的跨语言词义消歧模型:
-
MultiMirror模型
:由Luigi Procopio等人开发,是一种基于新的神经判别模型的多语言WSD词义投影方法,用于单词对齐。该模型能够同时将所有源和目标标记相互对齐,在给定一对平行短语作为输入时,在多种语言组合中优于其竞争对手。它利用预训练的上下文嵌入(特别是多语言BERT)创建每个标记的连续表示,然后使用特殊标记[SEP]连接两个短语,用[CLS]和[SEP]包围整个序列,并将输入标记划分为子词以适应mBERT输入结构。为了实现标记级别的上下文处理,MultiMirror使用一个额外的六层Transformer编码器,它接收每个标记的现有表示作为输入,并输出一系列维度为768的标记级输出向量。然后,它对每个潜在的对齐进行单独分类,首先计算张量H∈ Rl
k
768,其中Hij是由hui和hvj的元素积生成的向量,接着生成单词对齐矩阵A∈ Rl
k,其中Aij表示将ui与vj对齐的概率。
-
UHD模型
*:由Silberer等人提出,是一种基于图的跨语言WSD方法。他们首先根据在平行语料库中为目标词识别的匹配实例,为每个目标词创建一个多语言共现图,用目标词在相关情况下的解释标注的翻译边连接多语言节点。然后,他们使用改进的PageRank方法计算最小生成树,以选择上下文中最相关的单词来消歧特定的测试实例,最后,所选上下文单词的传入翻译边提供翻译。
graph LR
A[目标词] --> B[创建多语言共现图]
B --> C[计算最小生成树]
C --> D[选择相关单词]
D --> E[提供翻译]
跨语言词义消歧:原理、挑战与应用
7. 更多基于图的跨语言词义消歧模型
除了前面提到的MultiMirror模型和UHD模型,还有一些其他的基于图的跨语言词义消歧模型:
-
生物医学领域的共现图模型
:Duque等人提出的一种处理生物领域文档的方法。该方法基于共现图,其核心思想是文本中的概念有相互关联的趋势,但并非所有概念都如此,因此会通过统计分析来识别不符合该假设的概念。这种构建共现图的方法在多种WSD应用中都取得了成功,包括跨语言WSD。在词义消歧过程中,使用的共现图现在包含来自多语言语料库的信息,以探索较小的多语言语料库是否能取得与大型单语言语料库相似的结果。
-
基于知识图加权Voronoi区域的WSD模型
:Dongsuk等人提出的一种新颖的WSD方法。该方法利用输入文档中的术语与歧义单词之间的相似性来生成歧义单词的上下文,同时还提供了一种基于BabelNet语义网络结构的新颖单词相似度计算技术。该方法在英语WSD数据集SemEval - 2015和SemEval - 2013上进行了测试,实验数据表明,该方法显著优于基线WSD方法,在Semeval - 13数据集中,还击败了之前的最佳WSD系统和当前的最佳无监督知识WSD系统。
-
基于图卷积网络的WSD模型
:Zhang等人提出的基于图卷积网络(GCNs)的WSD方法。该方法利用歧义单词周围所有左右单元的判别特征、单词、词性和语义类别。在WSD网络中,单词、词性、语义类别和句子被表示为节点,边按顺序插入在单词、词性、语义类和句子之间。使用GCN处理WSD图,并使用softmax函数确定歧义单词的语义类。实验结果表明,GCN在WSD方面优于长短期记忆网络(LSTM)、卷积神经网络(CNN)、CNN + 双向长短期记忆网络(BiLSTM)和CNN + LSTM。GCN可以改善WSD图节点之间的信息传输,更有效地提取消歧信息,通过使用最少的卷积层提供更高的WSD准确性,从而减少所需的计算量。
-
图WSD中的上下文扩展方法
:Abdalgader等人提出的一种改进的无监督基于图的WSD方法。该方法利用词汇资源中的所有可能语义信息来增强图 - 语义连接,以识别单词的预期含义。
-
使用WordNet知识图的WSD方法
:Abdalgader和Al Shibli开发的顺序上下文相似度矩阵乘法(SCSMM)算法。该算法结合了文档上下文、语义相似度和启发式知识,以利用人类对术语的理解、文档的主题在消歧术语中的作用以及连续术语之间的局部上下文的优势。
8. 词义消歧的应用
词义消歧在几乎所有语言技术应用中都有使用,以下是一些主要的应用领域:
| 应用领域 | 具体作用 |
| ---- | ---- |
| 机器翻译(MT) | 处理具有不同含义的单词的词汇选择,目标语言中的情感以单词形式表示。例如,在翻译“bank”时,需要根据上下文确定是“金融银行”还是“河岸”。操作步骤:首先分析源语言句子的上下文,确定多义词的可能含义;然后根据目标语言的表达习惯和语法规则,选择合适的翻译。 |
| 信息检索(IR) | 解决IR系统查询中的歧义问题,帮助用户更准确地找到所需信息。操作步骤:对用户输入的查询进行词义消歧,确定每个词的准确含义;然后根据这些准确含义在信息库中进行检索。 |
| 文本挖掘和信息提取 | 用于进行准确的文本分析,例如帮助情报收集系统正确标记术语。操作步骤:对文本进行预处理,包括分词、词性标注等;然后进行词义消歧,确定每个词的准确含义;最后根据这些含义进行信息提取和分析。 |
| 词典编纂 | 与当代基于语料库的词典编纂可以协同工作,WSD通过词典编纂提供大致的经验词义分类以及具有统计意义的词义上下文标记。操作步骤:收集大量的文本语料;对语料中的单词进行词义消歧;根据消歧结果进行词义分类和标注,为词典编纂提供数据支持。 |
9. 结论与展望
人工智能是计算机科学中一个新兴且重要的领域,其应用不仅体现在计算机科学及其相关应用中,还广泛涉及工程、基础科学、文学和社会研究等多个领域,有潜力彻底改变研究过程。词义消歧是人工智能中不可或缺的领域,因为所有人类语言中都存在多义词,选择短语的正确/预期含义对于准确理解文本至关重要,而WSD方法正是用于实现这一目标。
目前,WSD已经在信息检索、自动应答机、信息提取、语音重建和机器翻译等多个领域得到应用,并采用了多种方法。技术正朝着自动学习的方向发展,过去大部分WSD工作主要集中在英语上,通过有监督、基于知识和半监督的方法进行研究。未来,该领域的工作可以聚焦于其他语言,如古吉拉特语、马拉地语或印地语,以扩大WSD的应用范围和效果。
graph LR
A[人工智能发展] --> B[词义消歧重要性凸显]
B --> C[多种应用领域]
C --> D[当前技术发展方向]
D --> E[未来研究方向拓展]
超级会员免费看
1252

被折叠的 条评论
为什么被折叠?



