机器翻译系统中词典的自动获取
一、引言
在自然语言处理(NLP)领域,研究人员一直对机器可读词典抱有兴趣,因为它们有望成为克服“词汇获取瓶颈”的实用资源。不过,许多人认为目前仅依靠机器可读词典来解决词汇获取问题仍困难重重。因此,大量研究将重点转向明确 NLP 词典所需的信息类型,目标是创建一个能用于自然语言处理的词汇数据库。
虽然机器可读词典的信息可能不足以支撑整个 NLP 领域的庞大数据库,但我们对利用这些信息来为特定自然语言处理系统创建词汇条目持乐观态度。接下来,我们将详细介绍 ULTRA 机器翻译系统及其词典,探讨词汇条目构建过程,包括描述《朗文当代英语词典》(LDOCE)及其条目的标准格式、从 LDOCE 中提取信息的过程,以及确定剩余信息的过程。最后,我们会提出实现整个过程完全自动化的建议。
通过相关工作,MT 系统的词典规模从最初基于约 2500 个词义大幅扩展到涵盖超过 10000 个词义。不同语言的词汇引用形式数量有所不同,平均词汇量约为 6500 个单词,其中英语词汇略少于 6000 个,西班牙语词汇略少于 7000 个。新添加的词汇条目是常见词汇,有望在翻译中发挥作用。我们还设想未来的系统能够为源语言文本中未在词典中出现的每个条目自动创建词汇条目,这要求系统能根据语言上下文确定每个单词的词义及其对应的语际概念,并自动为词典中不存在的词义创建词汇条目。目前相关技术可应用于后一部分,而前一部分的研究也在进行中。
二、ULTRA 系统概述
2.1 系统基本信息
ULTRA(通用语言翻译器)是一个多语言、语际机器翻译系统,目前可在中文、英语、德语、日语和西班牙语这五种语言之间进行翻译,每种语言的词汇基
超级会员免费看
订阅专栏 解锁全文
1136

被折叠的 条评论
为什么被折叠?



